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内 容 简介 

本 书 全 面 阐释 了 大 数据 的 概念 、 相 关 的 技术 和 应 用 的 现状 ， 使 读者 对 大 数据 的 相关 技术 、 应 用 和 产业 链 能 有 
一 个 比较 清晰 的 认识 。 

全 书 共 11 章 ， 主 要 内 容 包 括 大 数据 概论 、 数 据 组 织 存储 技术 、NoSQL、Hadoop 和 MapReduce、 数 据 查询 和 
分 析 高 级 技术 、 数 据 挖掘 技术 、 数 据 分 析 语 言 R、 大 数据 用 于 预测 和 决策 、 大 数据 与 市 场 营 销 、 大 数据 应 用 案例 、 
大 数据 应 用 主流 解决 方案 等 。 

本 书 在 内 容 的 选择 上 进行 了 深入 的 思考 ， 不 论 是 大 数据 领域 的 初学 者 还 是 具备 一 定 相 关 专 业 知 识 的 读者 都 能 
从 书 中 得 到 一 定 的 收获 或 启发 ， 同 时 ,本 书 还 适合 高 等 院 校 的 计算 机 相关 专业 的 本 专科 生 、 研 究 生 以 及 IT 行业 的 
从 业 人 员 ， 和 所 有 对 大 数据 感 兴趣 的 人 士 阅读 。 
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总 序 


大 数据 一 词 ， 最 早出 现 于 20 世 纪 90 年 代 。 随 着 云 计算 和 物 联网 的 不 断 发 展 ， 大 量 数据 源 
的 出 现 导致 了 非 结构 化 和 半 结 构 化 数据 的 迅速 增长 ， 数 据 单位 也 由 TB 级 别 跨 越 到 了 ZB 级 别 ， 
大 量 信 息 源 产 生 的 这 些 数据 已 远 远 超越 目前 人 力 所 能 处 理 的 范围 ， 人 们 在 思索 如 何 对 这 些 数 
据 进 行 管理 及 使 用 时 ， 逐 渐 探 索 出 一 个 新 的 领域 。 

大 数据 的 “大 ”不 仅 指 其 容量 ， 还 体现 在 多 样 性 、 处 理 速度 和 复杂 度 等 方面 。 无 论 人 
们 是 否 关注 过 ,海量 的 数据 已 如 决 堤 之 洪流 涌 入 人 们 的 生活 ， 大 数据 的 时 代 已 然 到 来 了 。 可 
以 目 暑 的 是 ， 大 数据 的 激流 已 经 给 个 人 生活 、 企 业经 营 乃 至 国家 和 社会 的 全 面 发 展 带 来 了 新 
的 机 遇 与 挑战 。2012 年 ， 志 界 经 济 论坛 年 会 的 重要 议题 之 一 是 “大 数据 、 大 影响 ”; 美国 也 
开始 从 开放 政府 数据 、 开 展 关 键 技 术 研 究 和 推动 大 数据 应 用 三 个 方面 来 布局 其 大 数据 产业 ; 
2011 年 以 来 ， 中 国 计 算 机 学 会 、 中 国 通信 学 会 先后 成 立 了 大 数据 委员 会 一 一 研究 大 数据 中 的 
科学 与 工程 问题 ; 中国 《“ 十 二 五 ”国家 战略 性 新 兴 产 业 发 展 规划 》 也 提出 了 支持 海量 数据 
存储 、 处 理 技术 的 研发 与 产业 化 …… 大 数据 正 以 不 可 抵挡 之 势 席卷 全 球 。 

随 着 大 数据 技术 和 市 场 的 快速 发 展 ， 驾 驭 大 数据 的 呼声 渐 涨 ， 蕴 含 在 大 数据 中 的 价值 使 
得 大 数据 已 经 成 为 IT 信息 产业 中 最 具 潜 力 的 蓝海 ， 这 也 使 得 学 习 及 掌握 国际 前 沿 的 大 数据 处 
理工 具 和 解决 方案 中 的 核心 技术 显得 十 分 迫切 。 从 全 球 角 度 来 看 ， 对 大 数据 的 认识 、 研 究 和 
应 用 还 都 处 于 初期 阶段 ， 特 别 是 对 我 国 来 说 ， 大 数据 真正 落地 ， 还 需要 一 个 长 期 的 过 程 。 由 
于 大 数据 领域 的 研究 和 分 析 方 法 综合 了 云 计算 、 数 据 仓库 、 统 计 学 、 数 据 挖掘 、 机 器 学 习 、 
数据 可 视 化 等 学 科 知 识 ， 因 此 编写 一 套 系统 的 大 数据 技术 与 应 用 的 丛书 ， 作 为 学 习 和 掌握 大 
数据 相关 理论 与 方法 的 开端 ， 无 疑 是 一 件 意义 非凡 的 事 。 

为 了 满足 国内 大 数据 领域 学 术 界 和 产业 界 系统 学 习 和 掌握 大 数据 理论 及 分 析 方法 的 迫切 
需要 ， 同 时 也 为 解决 国内 大 数据 相关 专业 ， 尤 其 是 本 科 生 、 研 究 生 教材 过 于 零散 不 够 系统 等 
问题 ， 深 圳 国泰 安 教育 技术 股份 有 限 公 司 大 数据 事业 部 群 和 中 科 院 深圳 先进 技术 研究 院 一 一 
国泰 安 金 融 大 数据 研究 中 心 合 作 ， 组 织 该 领域 的 专家 、 学 者 编写 了 “大 数据 技术 与 应 用 丛 
书 ”。 这 套 丛 书包 括 《 大 数据 导论 : 关键 技术 与 行业 应 用 最 佳 实践 》《 Datawatch 在 各 行业 的 
应 用 》 等 。 这 套 丛书 是 我 们 结合 了 大 数据 发 展 技术 、 发 展现 状 ， 并 调查 了 国内 学 术 界 和 产业 
界 的 实际 需求 后 精心 编写 的 。 和 希望 这 套 丛书 的 出 版 ， 能 为 中 国 大 数据 学 术 界 和 产业 界 吸纳 国 
内 外 先进 的 研究 理念 和 研究 方法 ， 为 国内 大 数据 领域 的 学 术 研究 、 学 术 发 展 和 实务 运作 提供 
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支持 与 帮助 。 

编写 出 版 这 套 丛 书 是 一 项 长 期 的 工程 ， 从 2014 年 初 开始 策划 编写 这 套 丛 书 ， 包 括 咨询 
专家 、 选 择 书 目 、 组 织 编写 、 校 对 内 容 、 图 书 出 版 ， 从 策划 者 、 编 写 者 到 校对 者 和 出 版 者 都 
投入 了 大 量 心血 和 时 间 。 在 选择 书目 时 ， 我 们 主要 考虑 所 选 书目 要 尽量 保证 理论 体系 的 完整 
性 ， 涵 盖 了 大 数据 领域 最 新 的 理论 研究 和 技术 操作 ， 内 容 编排 循序 渐进 ， 方 法 详尽 且 操 作 步 
又 简单 明了 。 

由 于 时 间 关 系 ， 书 中 难免 存在 不 妥 和 下 漏 之 处 ， 敬 请 读者 给 予 批评 指正 。 
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随 着 去 计算、 物 联网 等 技术 的 不 断 发 展 和 应 用 ， 海 量 数据 在 生产 经 营 、 商 务 活动 、 社 交 
生活 等 领域 不 断 产 生 。 世 界 处 在 信息 时 代 ， 美 国 奥 巴 马 政府 将 大 数据 提升 到 国家 战略 层面 ， 
启动 了 “大 数据 研究 和 发 展 计划 ”; 企业 将 大 数据 作为 提高 自身 竞争 力 的 重要 手段 ; 最 热 的 
IT 词汇 中 “大 数据 ” 必 有 一 席 之 地 …… 数 据 思维 深刻 影响 着 人 们 的 工作 和 生活 ， 这 让 人 们 真 
切 地 感受 到 大 数据 时 代 已 经 到 来 。 

大 数据 即将 带 来 一 场 颠覆 性 的 革命 ， 它 将 推动 社会 生产 取得 全 面 进步 ， 助 推 政府 、 金 
融 、 医 疗 、 教 育 、 零 售 、 制 造 业 、 能 源 和 交通 等 行业 产生 根本 性 的 变革 。 大 数据 是 一 个 事 关 
国家 、 社 会 发 展 全 局 的 产业 ， 围 绕 产业 链 的 上 下 游 ， 大 数据 将 带动 智能 终端 、 服 务 器 和 信息 
服务 业 等 产业 发 展 ， 有 效 减 少 社会 运行 成 本 ， 提 高 社会 和 经 济 运行 效率 。 

为 了 在 信息 时 代 立 于 不 败 之 地 ， 了 解 大 数据 相关 的 知识 是 必要 的 。 本 书 全 面 阐释 了 大 数 
据 的 概念 、 相 关 技 术 和 应 用 现状 ， 使 读者 对 大 数据 的 相关 技术 、 应 用 和 产业 链 有 一 个 比较 清 
晰 的 认识 。 本 书 适合 高 等 院 校 计算 机 相关 专业 的 本 专科 生 、 研 究 生 、IT 行 业 的 从 业 人 员 和 对 
大 数据 感 兴趣 的 人 士 阅读 。 本 书 在 内 容 的 选择 上 进行 了 深入 的 研究 ， 使 得 不 论 是 大 数据 领域 
的 初学 者 还 是 具备 一 定 相关 知识 的 专业 人 员 都 能 从 书 中 得 到 一 定 的 收获 和 启发 。 

本 书 共 11 章 ， 内 容 涵盖 大 数据 的 基本 概念 、 关 键 技术 和 行业 应 用 解决 方案 。 对 技术 感 
兴趣 的 读者 可 以 重点 阅读 第 2 一 7 章 ， 这 几 章 全 面 介绍 了 数据 的 存储 和 分 析 技 术 ; 对 大 数据 
应 用 感 兴趣 的 读者 可 以 优先 阅读 第 8 一 10 章 ; 第 11 章 对 那些 想 了 解 大 数据 产业 链 的 读者 会 很 
有 帮助 。 

第 1 章 简 要 介绍 大 数据 的 概念 、 大 数据 与 商业 智能 的 关系 和 大 数据 的 相关 技术 及 发 展 趋 
势 ; 第 2 章 介绍 数据 组 织 和 存储 的 关键 技术 ; 第 3 章 重点 介绍 了 NoSQL; 第 4 章 介绍 了 Hadoop 和 
MapReduce 相 关 技术 ; 第 5 章 阐 明了 数据 查询 和 分 析 技 术 ， 对 常用 的 分 析 工 具 进行 了 介绍 ; 第 
6 章 对 数据 挖掘 技术 的 概念 、 挖 掘 算法 和 数据 挖掘 的 发 展 趋势 进行 了 分 析 ; 第 7 章 重点 介绍 数 
据 分 析 语 言 R; 第 8 章 论述 大 数据 在 预测 和 决策 方面 的 作用 ， 并 阐述 了 商业 和 政府 决策 管理 的 
机 遇 和 挑战 ; 第 9 章 包 括 大 数据 与 市 场 营 销 的 联系 和 大 数据 时 代 的 营销 模式 创新 等 问题 ;第 10 
章 简 述 了 大 数据 在 金融 、 医 疗 、 互 联网 和 影视 等 行业 的 应 用 案例 ; 第 11 章 主要 介绍 大 数据 产 
业 链 ， 介 绍 了 新 兴 科技 企业 ( 如 Cloudera 、 深 圳 国泰 安 教育 技术 股份 有 限 公司 等 ) 和 传统 IT 巨 
头 ( 如 IBM 等 ) 在 大 数据 领域 的 主流 解决 方案 - 

新 思想 、 新 技术 的 不 断 涌现 ， 推 动 着 大 数据 的 成 熟 与 应 用 ， 也 有 效 地 推动 着 科技 和 社会 


了 
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的 进步 。 本 书 结合 了 深圳 国泰 安 教育 技术 股份 有 限 公 司 的 产品 和 解决 方案 ， 为 读者 呈现 了 大 
数据 领域 的 全 景 图 。 在 成 书 过 程 中 ,我 们 参考 了 大 量 国内 外 学 者 的 研究 成 果 和 业界 的 产品 及 
解决 方案 ， 资 料 来 源 列 在 每 章 参考 文献 中 ， 在 此 对 各 位 学 者 和 专业 人 士 表示 敬意 和 感谢 ! 
由 于 作者 水 平和 时 间 有 限 ， 书 中 难免 存在 玻 漏 和 错误 之 处 ， 奶 请 读者 批评 指正 。 
编 者 
2015 年 1 月 
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大 数据 概论 


相信 很 多 读者 一 定 还 记得 2012 年 “ 双 十 一 ”光棍 节 淘 宝 的 销售 记录 ， 当 天 销售 额 高 达 
191 亿 人 民 币 ， 相 当 于 2012 年 全 国 前 11 个 月 社会 消费 品 零售 总 额 18.6 万 亿 的 5% 。 之 后 阿里 巴 
巴 董事 局 主席 马云 说 ， 这 是 中 国 经 济 转型 的 一 个 标志 ， 这 一 年 可 谓 是 电 商 的 “井喷 ”之 年 。 
2013 年 “ 双 十 一 ”光棍 节 ， 淘 宝 销售 记录 更 是 高 达 350.19 亿 元 。 自 从 2009 年 淘宝 在 11 月 11 
日 开展 “品牌 商品 5 折 优 惠 ” 活 动 以 来 ， 这 一 天 的 交易 额 由 2009 年 的 1 亿 元 、2010 年 的 9.36 亿 
元 、2011 年 的 52 亿 元 、2012 年 的 191 亿 元 ， 一 直 狂 磊 到 2013 年 的 350.19 亿 元 ， 正 式 超 越美 国 
“网 络 星期 一 ”， 成 为 世界 上 最 大 的 购物 狂欢 节 。 这 一 系列 惊人 的 创举 背后 是 什么 ?是 大 数 
据 。 它 成 就 了 阿里 ， 也 成 就 了 中 国 的 电 商 时 代 。 

2011 年 5 月 ， 全 球 知名 咨询 公司 麦肯锡 ( Mckinsey and Company ) 发 布 了 《大 数据 : 创 
新 、 竞 争 和 生产 力 的 下 一 个 前 沿 领域 》 的 报告 ， 标 志 着 大 数据 时 代 的 到 来 。2012 年 世界 经 济 
论坛 发 布 了 《大 数据 : 大 影响 》 的 报告 ， 从 金融 服务 、 健 康 、 教 育 、 农 业 、 医 疗 等 多 个 领域 
阐述 了 大 数据 给 世界 经 济 社会 发 展 带 来 的 机 会 。 

整个 世界 已 经 迎 来 了 大 数据 时 代 。 根 据 最 新 调查 结果 显示 ，2015 年 将 会 有 近 200 亿 个 设 
备 连接 到 互联 网 上 ， 这 些 设备 不 仅 有 电脑 ， 更 有 汽车 、 工 厂 设 备 、 数 字 标 牌 等 之 前 不 可 想象 
的 设备 。 越 来 越 多 的 智能 终端 设备 给 产业 发 展 带 来 巨大 的 机 遇 。 到 2020 年 ， 人 类 产生 的 数据 
总 量 将 达到 40ZB ， 全 球 范围 内 服务 器 的 数量 将 会 增加 10 倍 ， 由 企业 数据 中 心 直 接管 理 的 数据 
量 将 会 增加 14 倍 ，IT 专 业 人 员 的 数量 将 会 增加 1.5 倍 。 许 多 权威 人 士 认为 这 一 数据 大 爆炸 堪 比 
新 型 石油 ， 甚 至 是 一 种 全 新 的 资产 类 别 。 


上 1.1 什么 是 大 数据 


互联 网 、 移 动 互联 网 、 物 联网 、 云 计算 的 快速 兴起 ， 以 及 移动 智能 终端 的 快速 发 展 ， 造 
成 当前 数据 增长 的 速度 比 人 类 社会 以 往 任何 时 候 都 要 快 。 数 据 规 模 变 得 越 来 越 大 ， 内 容 越 来 
越 复杂 ， 更 新 速度 越 来 越 快 ， 数 据 特征 的 演化 和 发 展 催生 出 了 一 个 新 的 概念 一 一 大 数据 。 

最 早 引用 的 所 谓 “ 大 数据 ”概念 ， 可 以 追溯 到 Apache 公 司 的 开源 项 目 Nuteh。 当 时 ， 把 大 
数据 描述 为 用 来 更 新 网 络 搜索 索引 以 及 需要 同时 进行 批量 处 理 和 分 析 的 大 量 数据 集 。 其 实 早 
在 1980 年 ， 著 名 的 未 来 学 家 阿尔 文 * 托 夫 勒 便 在 《第 三 次 浪潮 》 这 本 书 中 ,极力 装 扬 大 数据 
为 “第 三 次 浪潮 的 华 彩 乐 章 ”。 不过， 大 概 从 2009 年 开始 ，“ 大 数据 ” 才 成 为 IT 行 业 的 流行 
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词汇 。 根 据 美国 互联 网 数据 中 心 的 数据 ， 互 联网 上 的 数据 每 年 将 呈现 50% 的 增长 ， 即 每 两 年 
将 会 翻 一 番 。 而 实际 上 ， 世 界 上 90% 以 上 的 数据 都 是 最 近 几 年 才 产 生 的 。 除 此 之 外 ,数据 又 
并 非 单纯 指 人 们 在 互联 网 上 发 布 的 信息 ， 全 世界 的 工业 设备 、 交 通 工 具 、 生 活 电器 、 移 动 终 
端 EF 有 着 无 数 的 数码 传感器 ， 随 时 测量 和 传递 着 有 关 位 置 、 运 动 、 震 动 、 温 度 、 湿 度 乃 至 空 
气 中 化 学 物质 的 变化 情况 ， 这 也 产生 了 海量 的 数据 信息 。 


1.1.1 大 数据 的 概念 


何谓 大 数据 ， 目 前 业界 还 没有 公认 的 说 法 。 就 其 定义 而 言 ， 大 数据 是 一 个 较为 抽象 的 概 
念 ， 至 今 尚 无 确切 、 统 一 的 定义 ， 各 方 对 “大 数据 ”给 出 了 10 余 种 不 同 的 定义 ， 比 较 典 型 的 
有 以 下 几 种 。 

研究 机 构 Gartner 认 为 : 大 数据 是 指 需要 借助 新 的 处 理 模式 才能 拥有 更 强 的 决策 力 、 洞 察 
发 现 力 和 流程 优化 能 力 的 具有 海量 、 多 样 化 和 高 增长 率 等 特点 的 信息 资产 。 

麦肯锡 的 定义 为 : 大 数据 是 指 在 一 定时 间 内 无 法 用 传统 数据 库 软件 工具 采集 、 存 储 、 管 
理 和 分 析 其 内 容 的 数据 集合 。 

维基 百科 的 定义 是 : 大 数据 指 的 是 需要 处 理 的 资料 量规 模 巨大 ， 无 法 在 合理 时 间 内 ,， 通 
过 当前 主流 的 软件 工具 撕 取 、 管 理 、 处 理 并 整理 的 资料 ， 它 成 为 帮助 企业 经 营 决 策 的 资讯 。 

IDC 对 大 数据 作出 的 定义 为 : 大 数据 一 般 会 涉及 两 种 或 两 种 以 上 的 数据 形式 。 它 要 收集 超过 
100TB 的 数据 ， 并 上 且 是 高 速 、 实 时 的 数据 流 ， 或 者 是 从 小 数据 开始 ， 但 数据 量 每 年 会 增长 60% 以 上 。 

Gartner 给 出 的 是 一 个 比较 宏观 的 定义 。 首 先 对 数据 进行 了 描述 ， 并 在 此 基础 上 加 入 了 处 
理 此 类 型 数据 的 一 些 特 征 ， 用 这 些 特征 来 描述 大 数据 ; 而 维基 百科 中 的 定义 缺乏 精确 性 ， 常 
用 软件 工具 的 范畴 难以 界定 ; 麦肯锡 和 IDC 又 只 强调 数据 本 身 的 量 、 种 类 和 增长 速度 ， 属 于 
狭义 定义 。 从 大 数据 的 概念 看 ， 对 大 数据 的 概念 界定 各 有 各 的 看 法 。“ 大 数据 ”这 一 提 法 具 
有 明显 的 时 代 相 对 性 ,今天 的 大 数据 在 未 来 可 能 就 不 一 定 是 大 数据 ， 从 业界 普遍 水 平 看 是 大 
数据 ， 但 对 一 些 领先 者 来 说 或 许 已 经 习以为常 了 。 

狭义 的 大 数据 ， 主 要 是 指 大 数据 的 相关 关键 技术 及 其 在 各 个 领域 中 的 应 用 ， 是 指 从 各 
种 各 样 类 型 的 数据 中 ,快速 地 获得 有 价值 的 信息 的 能 力 。 一 方面 ， 狭 义 的 大 数据 反映 的 是 数 
据 规模 非常 大 ， 大 到 无 法 在 一 定时 间 内 用 一 般 性 的 常规 软件 工具 对 其 内 容 进 行 抓 取 、 管 理 和 
处 理 的 数据 集合 ; 另 一 方面 ， 狭 义 的 大 数据 主要 是 指 海量 数据 的 获取 、 存 储 、 管 理 、 计 算 分 
析 、 挖 掘 与 应 用 的 全 新 技术 体系 。 

广义 上 讲 ， 大 数据 包括 大 数据 技术 、 大 数据 工程 、 大 数据 科学 和 大 数据 应 用 等 大 数据 相 
关 的 领域 。 即 除了 狭义 的 大 数据 之 外 ,还 包括 大 数据 工程 和 大 数据 科学 。 大 数据 工程 ， 是 指 
大 数据 的 规划 建设 运营 管理 的 系统 工程 ; 大 数据 科学 ， 主 要 关注 大 数据 网 络 发 展 和 运营 过 程 
中 发 现 和 验证 大 数据 的 规律 及 其 与 自然 和 社会 活动 之 间 的 关系 。 对 大 数据 进行 广义 分 类 是 为 
了 适应 信息 经 济 时 代 发 展 需 要 而 产生 的 科学 技术 发 展 的 趋势 。 


1.1.2 大 数据 的 特征 
IBM 公 司 认为 大 数据 具有 3V 特 点 ， 即 规模 性 ( Volume ) 、 多 样 性 ( Variety ) 和 实时 性 


第 1 章 ”大 数据 概论 | 


(Velocity ) ， 但 是 这 没有 体现 出 大 数据 的 巨大 价值 。 以 IDC 为 代表 的 业界 则 认为 大 数据 具备 
4V 特 点 ， 即 在 3V 的 基础 上 增加 价值 性 ( Value ) ,表示 大 数据 虽然 价值 总 量 高 但 其 价值 密度 
低 。 目 前 ， 大 家 公认 的 是 大 数据 有 四 个 基本 特征 : 数据 规模 大 、 数 据 种 类 多 、 处 理 速度 快 及 
数据 价值 密度 低 ， 即 所 谓 的 4V 特 性 ， 如 图 1.1 所 示 -。 


。 TB | | 。 结 构 化 


®。 PB 。 半 结 构 化 
。 EB 。 非 结构 化 


。 流 模式 。 高 价值 
。 实时 . 低 密度 
。 批量 | bd 碎片 化 


图 1.1 大 数据 的 4V 特 性 


1. 数据 规模 大 ( Volume ) 

数据 量 大 是 大 数据 的 基本 属性 ， 随 着 互联 网 技术 的 广泛 应 用 ， 互 联网 的 用 户 急剧 增多 ， 
数据 的 获取 、 分 享 变 得 相当 容易 。 在 以 前 ， 也 许 只 有 少量 的 机 构 会 付出 大 量 的 人 力 、 财 力 成 
本 ， 通 过 调查 、 取 样 的 方法 获取 数据 ， 而 现在 ， 普 通用 户 也 可 以 通过 网 络 非常 方便 地 获取 数 
据 。 此 外 ,用 户 的 分 享 、 点 击 、 浏 览 都 可 以 快速 地 产生 大 量 数据 ， 大 数据 已 从 TB 级 别 跃升 到 
PB 级 别 。 当 然 ， 随 着 技术 的 进步 ， 这 个 数值 还 会 不 断 变 化 。 也 许 5 年 以 后 ， 只 有 EB 级 别 的 数 
据 量 才能 够 称 得 上 是 大 数据 了 。 

2. 数据 种 类 多 ( Variety ) 

除了 传统 的 销售 、 库 存 等 数据 外 ， 现 在 企业 所 采集 和 分 析 的 数据 还 包括 像 网 站 日 志 数 
据 、 呼 叫 中 心 通话 记录 、Twitter 和 Facebook 等 社交 媒体 中 的 文本 数据 ， 智 能 手机 中 内 置 的 
GPS ( 全 球 定位 系统 ) 所 产生 的 位 置信 息 、 时 刻 生 成 的 传感器 数据 等 。 数 据 类 型 不 仅 包 括 传 
统 的 关系 数据 类 型 ， 也 包括 未 加 工 的 、 半 结构 化 和 非 结构 化 的 信息 ， 例 如 以 网 页 、 文 档 、 
E-mail、 视 频 、 音 频 等 形式 存在 的 数据 。 

3. 处 理 速度 快 ( Velocity ) 

数据 产生 和 更 新 的 频率 也 是 衡量 大 数据 的 一 个 重要 特征 。1 秒 定律 ， 这 是 大 数据 与 传统 
数据 挖掘 相 区 别 的 最 显著 特征 。 例 如 全 国 用 户 每 天 产生 和 更 新 的 微 博 、 微 信和 股票 信息 等 数 
据 ， 随 时 都 在 传输 ， 这 就 要 求 处 理 数 据 的 速度 必须 要 快 。 

4. 数据 价值 密度 低 ( Value ) 

数据 量 在 呈现 几何 级 数 增长 的 同时 ， 这 些 海量 数据 背后 隐藏 的 有 用 信息 却 没有 呈现 出 相 
应 比例 的 增长 ， 反 而 是 获取 有 用 信息 的 难度 不 断 加 大 。 例 如 ， 现 在 很 多 地 方 安装 的 监控 使 得 
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相关 部 门 可 以 获得 连续 的 监控 视频 信息 ， 这 些 视频 信息 产生 了 大 量 数据 ， 但 是 ， 有 用 的 数据 
可 能 仅 有 一 、 两 秒 钟 。 因 此 ， 大 数据 的 4V 特 征 不 仅仅 表达 了 数据 量 大 ， 而 且 在 对 大 数据 的 分 
析 上 也 将 更 加 复杂 ， 更 看 中 速度 与 时 效 。 


1.1.3 大 数据 的 产生 


大 数据 的 产生 是 计算 机 和 网 络 通信 技术 ( ICT ) 被 广泛 运用 的 必然 结果 ， 特 别 是 互联 
网 、 移 动 互 联网 、 物 联网 、 云 计算 、 社 交 网 络 等 新 一 代 信息 技术 的 发 展 ， 起 到 了 促进 的 作 
用 ， 它 使 数据 的 产生 方式 发 生 了 四 大 变化 : 首先 ， 数 据 的 产生 由 企业 内 部 向 企业 外 部 扩展 ; 
第 二 ， 数 据 的 产生 由 Web 1.0 向 Web 2.0 扩 展 ; 第 三 ， 数 据 的 产生 由 互联 网 向 移动 互联 网 扩 
展 ; 最 后 ， 数 据 的 产生 由 计算 机 或 互联 网 (IT ) 向 物 联网 (IOT ) 扩展 。 这 四 个 方面 的 变化 ， 
让 数据 产生 的 源头 呈 几 何 级 数 地 增长 ， 数 据 量 更 是 呈现 大 幅度 地 快速 增加 。 

1. 数据 的 产生 由 企业 内 部 向 企业 外 部 扩展 

由 企业 内 部 的 办 公 自 动 化 (OA ) 、 企 业 资 源 计 划 (ERP ) 、 物 料 需 求 计划 ( MRP ) 等 业 
务 以 及 管理 和 决策 分 析 系 统 所 产生 的 数据 ， 主 要 被 存储 在 关系 型 数据 库 中 。 内 部 数据 是 企业 
内 最 成 熟 并 且 被 熟知 的 数据 ， 这 些 数据 已 经 通过 多 年 的 主 数据 管理 (MDM ) 、ERP、0OA、 
MRP、 数 据 仓 库 (DW ) 、 商 业 智能 ( BI ) 和 其 他 相关 应 用 的 积累 ， 实 现 了 内 部 数据 的 收集 、 
清洗 、 集 成 、 结 构 化 和 标准 化 处 理 ， 可 以 为 企业 管理 决策 提供 支持 与 帮助 。 对 于 商业 企业 而 
言 ， 信 息 化 的 运用 环境 在 发 生 着 变化 ， 其 外 部 数据 也 迅速 扩展 。 企 业 应 用 、 互 联网 应 用 和 移 
动 互 联网 应 用 之 间 的 融合 越 来 越 快 ， 企 业 需要 通过 互联 网 来 联系 外 部 供应 商 、 服 务 客户 ， 联 
系 上 下 游 的 合作 伙伴 ， 并 在 互联 网 上 实现 电子 商务 和 电子 采购 的 交易 和 结算 。 企 业 需要 开通 
微 博 、 微 信 、QQ、 博 客 等 社交 网 络 来 进行 网 络 营销 、 品 牌 建 设 和 客户 关怀 。 把 电子 标签 贴 在 
企业 的 产品 上 ， 在 制造 、 供 应 链 和 物流 的 全 过 程 中 进行 及 时 跟踪 和 反馈 ， 必 将 有 更 多 来 自 企 
业 外 部 的 数据 被 产生 出 来 。 表 1.1 所 示 为 企业 内 外 部 数据 产生 的 源头 、 规 模 及 存储 情况 。 

表 1.1 企业 内 外 部 数据 的 产生 


[| | 企业 内 部 数据 企业 外 部 数据 


企业 应 用 |ERP、CRM、MES、SCADA、OA、 专 业 业 务 系 | 电子 商务 、 电 子 采购 、 知 识 管理 、 呼 叫 中 心 、 
人 “| 统 、 传 感 器 企业 微 博 、 企 业 微 信 、RFID、 传 感 器 


数据 规模 | TB 级 PB 级 | 
数据 存储 | 关系 型 数据 库 、 数 据 仓库 各 种 格式 的 文档 

2. 数据 的 产生 从 Web 1. 0 向 Web 2. 0， 从 互联 网 向 移动 互联 网 扩展 

随 着 社交 网 络 的 迅速 发 展 ， 互 联网 进入 了 Web 2.0 时 代 ， 个 人 从 数据 的 使 用 者 ， 变 成 了 数 
据 的 制造 者 ， 数 据 规 模 不 断 地 扩张 ， 每 时 每 刻 都 在 产生 着 大 量 的 新 数据 。 例 如 ， 从 全 球 统计 
数据 的 角度 来 看 ， 全 球 每 分 钟 发 送 290 万 封 电子 邮 件 ， 电 子 商务 公司 亚马逊 每 秒 钟 将 产生 72.9 
笔 商品 订单 ， 每 分 钟 会 有 20 个 小 时 的 视频 上 传 到 视频 分 享 网 站 YouTube， 谷 歌 每 天 需要 处 理 
24PB 的 数据 ，Twitter 上 每 天 发 布 5 千 万 条 信息 ， 每 个 家 庭 每 天 消费 的 数据 有 375MB ， 每 个 月 网 
民 在 Facebook 上 要 花费 7 千 亿 分 钟 …… 

从 中 国 的 统计 数据 来 看 ， 数 据 规模 也 十 分 巨大 。 淘 宝 网 会 员 超 过 了 5 亿 ， 在 线 商 品 数 超 
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过 了 8.8 亿 ,每 天 产生 的 交易 有 数 千 万 笔 ， 产生 约 20TB 的 数据 ; 目前 百度 拥有 的 数据 总 量 接 近 
1000PB， 存 储 网 页 的 数量 接近 1 万 亿 页 ， 每 天 大 约 要 处 理 60 亿 次 的 搜索 请 求 ， 产 生 几 十 PB 的 
数据 ; 新 浪 微 博 每 天 有 数 十 亿 外 部 网 页 和 API 接 口 访问 需求 ， 服 务 器 群 在 晚上 高 峰 期 每 秒 要 
接受 100 万 个 以 上 的 响应 请 求 。 

3. 数据 的 产生 由 互联 网 向 移动 互联 网 扩展 

移动 互联 网 的 发 展 让 更 多 的 使 用 者 成 为 数据 的 制造 者 。 据 统计 ， 全 球 每 个 月 移动 互联 
网 的 使 用 者 发 送 和 接收 的 数据 高 达 1.3EB。 在 中 国 ， 仅 中 国联 通用 户 上 网 记录 条 数 为 83 万 条 / 
秒 ， 即 一 万 亿 条 /月 ， 对 应 数据 量 为 300TB/ 月 ， 或 3.6PB/ 年 。 


4. 数据 的 产生 从 计算 机 /互联 网 ( IT ) 向 物 联网 ( IOT ) 扩展 


随 着 传感器 、 视 频 、RFID 和 智能 设备 等 技术 的 发 展 ， 音 频 、 视 频 、 机 器 对 讲 机 器 、 
RFID 、 人 机 交互 、 物 联网 和 传感器 等 数据 大 量 产生 ， 其 数据 量 更 是 巨大 。 根 据 国 际 知名 市 场 
研究 公司 IDC 公 布 的 数据 ， 在 2005 年 仅 机 器 对 机 器 产生 的 数据 就 占 全 世界 数据 总 量 的 11%， 预 
计 到 2020 年 这 一 数值 将 可 能 增加 到 数据 总 量 的 42%。 思 科 ( Cisco ) 公司 预测 ， 仅 移动 设备 的 
数据 总 流量 在 2015 年 就 将 达到 每 月 6.3EB 的 规模 。 


1.1.4 数据 的 量 级 


数据 规模 的 大 小 是 用 计算 机 存储 容量 的 单位 来 计算 的 ， 最 基本 的 单位 是 字 节 ( Byte ) 。 
每 一 级 按照 千 分 位 递增 ， 最 小 的 基本 单位 是 Byte， 按 顺序 所 有 单位 依次 为 : Byte、KB 、MB、 
GB、TB、PB、EB、ZB、YB、BB、NB、DB。 它们 按照 进 率 1024 ( 2 的 十 次 方 ) 来 计算 。 

1KB= 1 024 Bytes 

1MB= 1 024 KB = 1 048 576 Bytes 

1GB= 1 024 MB = 1 048 576 KB 

1TB= 1 024 GB = 1 048 576 MB 

1PB= 1 024 TB = 1 048 576 GB 

1EB= 1 024 PB = 1 048 576 TB 

1ZB= 1 024 EB = 1 048 576 PB 

1YB= 1 024 ZB = 1 048 576 EB 

1BB= 1 024 YB = 1 048 576 ZB 

1NB= 1 024 BB = 1 048 576 YB 

1DB= 1 024 NB = 1 048 576 BB 
巨著 《红楼 梦 》 含 标点 87 万 字 ( 不 含 标点 853 509 字 ) ， 每 个 汉字 占 两 个 字 节 ， 则 1 汉字 
=16bit = 2 x 8 位 =2bytes， 以 计算 机 单位 换算 ，1GB 约 等 于 671 部 《红楼 梦 》，1TB 约 等 于 
631 903 部 ，1PB 约 等 于 647 068 911 部 。 再 以 互联 网 为 例 ， 一 天 当中 ， 在 互联 网 上 产生 的 全 部 
内 容 可 以 刻 满 1.68 亿 张 DVD; 发 出 的 邮件 有 2 940 亿 封 之 多 ; 发 出 的 社区 帖子 多 达 200 万 个 ， 相 
当 于 《时 代 》 杂 志 770 年 的 文字 量 …… 截 止 到 2012 年 ， 数 据 量 已 经 从 TB(1 024GB=1TB) 级 别 跃 
升 到 PB(1 024TB = 1PB)、EB(1 024PB=1EB) 乃 至 ZB(1 024EB=1ZB) 级 别 。 国 际 著名 市 场 研究 公 
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司 IDC 的 研究 结果 表明 ，2008 年 全 球 产 生 的 数据 量 高 达 1.82ZB， 相 当 于 全 球 每 人 产生 200GB 以 
上 的 数据 。 到 2012 年 为 止 ， 人 类 生产 制造 的 所 有 印刷 材料 的 数据 量 是 200PB ， 全 人 类 历史 上 
说 过 的 所 有 话 的 数据 量 大 约 是 SEB。IBM 的 研究 称 ， 整 个 人 类 文明 所 获得 的 全 部 数据 之 中 ， 有 
90% 是 过 去 两 年 内 产生 的 。 到 2020 年 ， 全 世界 所 产生 的 数据 规模 将 达到 今天 的 44 倍 。 


1.1.5 大 数据 的 数据 类 型 

大 数据 不 仅仅 体现 在 数量 大 ， 也 体现 在 数据 类 型 多 。 

1. 按照 数据 结构 分 类 

按照 数据 结构 分 ， 数 据 可 分 为 结构 化 数据 与 非 结构 化 数据 。 非 结构 化 数据 又 包含 半 结 构 
化 数据 和 无 结构 的 数据 。 结 构 化 数据 通常 存储 在 数据 库 中 ， 可 以 用 二 维 表 结 构 来 逻辑 表达 实 
现 的 数据 。 相 对 于 结构 化 数据 而 言 ， 非 结构 化 数据 是 指 不 能 用 二 维 表 结构 来 表现 的 数据 ， 包 
括 各 种 格式 的 办 公文 档 、 图 片 、 图 像 、 文 本 、HTML 文 档 、XML 文 档 ， 各 类 报表 、 音 频 和 视 
频 信息 等 。 

(1 ) 结构 化 数据 

结构 化 数据 的 特点 是 在 任何 一 列 数 据 不 可 以 再 细 分 ， 并且 任何 一 列 数据 都 具有 相同 的 数 
据 类 型 。 所 有 关系 型 数据 库 ( 如 SQL Server、Oracle、MySQL、DB2 等 ) 中 的 数据 全 部 为 结构 
化 数据 。 关 系 型 数据 库存 储 的 结构 化 数据 示例 如 表 1.2 所 示 。 

表 1.2 ”结构 化 数据 示例 

| 3 | 学 4 名 | 科目 | ”成绩 | 
ooo 红妆 |% 
rm 

(2 ) 半 结 构 化 数据 

半 结 构 化 数据 是 处 于 完全 结构 化 数据 和 完全 无 结构 的 数据 之 间 的 数据 ， 这 种 数据 类 型 的 
格式 一 般 较 为 规范 ， 都 是 纯 文本 数据 ， 可 以 通过 某 种 特定 的 方式 解析 得 到 每 项 数据 。 最 常见 
的 半 结 构 化 数据 是 日 志 数 据 、 采 用 XML 与 JSON 等 格式 的 数据 ， 每 条 记录 可 能 都 会 有 预先 定义 
的 规范 ， 但 是 每 条 记录 包含 的 信息 可 能 不 尽 相同 ; 也 可 能 会 有 不 同 的 字段 数 ， 包 含 不 同 的 字 
段 名 、 字 段 类 型 或 者 包含 着 嵌 套 的 格式 等 。 这 类 数据 一 般 都 是 以 纯 文 本 的 格式 输出 ， 管 理 维 
护 相 对 而 言 较为 方便 。 但 是 ， 在 需要 使 用 这 些 数据 ( 如 采集 、 查 询 、 分 析 数 据 ) 时 ， 可 能 需 
要 先 对 这 些 数 据 格式 进行 相应 地 转换 或 解码 。 

下 面 是 一 个 XML 文档 的 示例 。 


<?xml Version="2.0"2> 


<Order> 
<product xmlns="http://market"> 
<Title>The Joshua Tree</Title> 
(3 ) 无 结构 的 非 结 构 化 数据 
无 结构 的 数据 是 指 那些 非 纯 文 本 类 型 的 数据 ， 这 类 数据 没有 固定 的 标准 格式 ， 无 法 直 
接 解 析出 其 相应 的 值 。 常 见 的 无 结构 化 数据 有 网 页 、 文 本 文档 、 多 媒体 ( 声音 、 图 像 与 视频 
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等 ) 。 这 类 数据 不 容易 收集 和 管理 ， 甚 至 是 无 法 直接 查询 和 分 析 ， 所 以 对 这 类 数据 需要 使 用 
一 些 不 同 的 处 理 方式 。 

2. 按照 产生 主体 方式 分 类 

(1) 最 里 层 。 由 少数 企业 应 用 而 产生 的 数据 。 

@@ 关系 型 数据 库 中 的 数据 。 

@@ 数据 仓库 中 的 数据 。 

(2 ) 次 外 层 。 大 量 个 人 产生 的 数据 。 

和 @@ 社交 媒体 ， 如 微 博 、QQ、 微 信 、Facebook、Twitter 等 产生 的 大 量 文字 、 图 片 和 视频 

数据 。 

@ 企业 应 用 的 相关 评论 数据 。 

@ 电子 商务 在 线 交 易 、 供 应 商 交 易 的 日 志 数 据 。 

(3 ) 最 外 层 。 由 巨 量 机 器 产生 的 数据 。 

@ 应 用 服务 器 日 志 (Web 站点、 游戏 ) 。 

@ 传感器 数据 ( 天气、 水 、 智 能 电网 ) 。 

@ 图 像 和 视频 。 

@ REFID 、 二 维 码 或 者 条 形 码 扫描 的 数据 。 

图 1.2 所 示 为 不 同 的 大 数据 主题 示意 图 。 


机 器 产生 的 数据 


个 人 产生 的 数据 


关系 型 数据 库 


图 1.2 不 同 的 大 数据 主题 


3. 按照 数据 产生 作用 的 方式 分 类 

按照 数据 产生 作用 的 方式 分 类 ， 可 分 为 交易 数据 和 交互 数据 。 

交易 数据 是 指 来 自 电子 商 务 或 者 企业 应 用 中 的 数据 ， 包 括 ERP、 企 业 对 企业 ( B2B ) 、 
企业 对 个 人 (B2C ) 、 个 人 对 个 人 (C2C ) 、 线 上 线 下 ( 020 ) 、 团 购 等 系统 。 这 些 数据 
存储 在 关系 型 数据 库 和 数据 仓库 中 ， 可 以 执行 联机 分 析 处 理 ( OLAP ) 和 联机 事务 处 理 
(OLTP ) 。 这 些 数据 的 复杂 性 和 规模 一 直 都 在 不 断 地 增加 。 

交互 数据 指 来 自 相 互 作用 的 社交 网 络 中 的 数据 ， 包 括 机 器 交互 ( 设备 生成 交互 ) 和 社交 
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媒体 交互 ( 人 为 生成 交互 ) 的 新 型 数据 。 
这 两 类 数据 的 有 效 融 合 将 是 大 势 所 趋 。 大 数据 应 用 要 有 效 集成 这 两 类 数据 ， 并 在 此 基础 
上 ， 实 现 对 这 些 数据 的 处 理 和 分 析 。 


1.1.6 大 数据 的 潜在 价值 


大 数据 的 潜在 价值 可 以 通过 数据 结构 的 复杂 性 和 关联 性 体现 出 来 。 当 提 到 大 数据 时 ， 
我 们 最 先 想到 的 一 定 是 其 体 量 大 , 但 是 体 量 大 的 数据 如 果 仅 是 简单 的 数据 堆砌 ， 或 者 仅 是 对 
单一 类 型 数据 的 记录 ,那么 这 种 重复 性 高 、 结 构 简 单 的 数据 还 不 能 称 之 为 大 数据 。 例 如 ,在 
一 个 购物 商场 内 ， 商 品种 类 有 上 千 种 ， 每 种 商品 又 有 来 自 不 同 公司 的 产品 ， 再 加 上 购物 、 休 
闲 、 娱 乐 、 餐 饮 等 信息 ， 则 它 拥 有 的 数据 就 能 从 各 个 维度 反映 出 顾客 的 行为 特征 ， 从 而 蕴含 
更 大 的 数据 价值 。 

大 数据 潜在 价值 的 男 一 个 体现 是 其 关联 性 。 大 数据 的 重要 来 源 之 一 是 互联 网 行业 。 随 着 
移动 互联 网 的 发 展 及 互联 网 普及 率 的 提升 ， 网 民 上 网 行为 呈现 出 跨 网 站 、 跨 终端 、 跨 平台 等 
特点 ， 用 户 数据 不 仅 包括 人 与 人 交流 产生 的 数据 ， 还 包括 人 机 交互 及 机 器 与 机 器 间 通 信 产 生 
的 数据 。 这 些 数 据 之 间 如 果 没 有 较 明 显 的 逻辑 关系 和 确定 的 关联 关系 ， 则 数据 价值 的 挖掘 就 
会 变 得 相当 困难 ， 同 时 数据 价值 也 相应 要 低 很 多 。 所 以 数据 之 间 的 逻辑 性 和 关联 性 也 是 数据 
潜在 价值 的 蕴藏 点 。 

大 数据 潜在 价值 的 实现 包括 三 个 层次 ， 社 会 领域 、 行 业 领域 及 企业 发 展 领域 。 大 数据 最 
终 需 要 解决 的 问题 主要 集中 在 这 样 三 个 层面 上 : 一 是 宏观 层面 ， 主 要 是 应 用 于 社会 领域 ， 如 
智慧 交通 、 智 慧 城市 和 灾难 预警 等 ; 二 是 中 观 层面 ， 主 要 表现 在 提升 行业 生产 率 水 平 、 促 进 
行业 的 融合 发 展 以 及 促进 行业 内 商业 模式 的 变革 等 ; 三 是 微观 层面 ， 主 要 表现 在 促进 客户 服 
务 水 平 的 提升 、 企 业 流程 的 创新 、 内 部 运营 成 本 的 降低 及 供应 链 的 协调 和 改善 等 。 


1.1.7 大 数据 的 挑战 


大 数据 在 带 来 巨大 的 潜在 价值 的 同时 ， 在 业务 视角 、 技 术 架 构 、 管 理 策略 等 方面 ， 由 于 
存在 差异 性 而 形成 了 挑战 。 


1. 业务 视角 不 同 带 来 的 挑战 


在 大 数据 未 出 现 之 前 ,企业 通过 对 内 部 ERP、 客 户 关 系 管理 ( CRM ) 、 供 应 链 管理 
(SCM ) 、 商 业 智 能 ( BI) 等 信息 系统 的 建设 ,建立 了 高 效 的 企业 内 部 统计 报表 、 仪 表盘 等 
决策 分 析 工 具 ， 这 些 管理 系统 在 企业 业务 敏捷 决策 方面 发 挥 了 很 大 作用 。 但 是 ， 这 些 数 据 分 
析 只 反映 了 冰山 一 角 ， 因 为 报表 和 仪表 盘 其 实 是 “残缺 ”的 ， 是 不 全 面 的 ， 更 多 潜在 的 有 价 
值 的 信息 往往 被 企业 所 忽略 。 在 大 数据 时 代 ， 企 业 业 务 部 门 必须 改变 他 们 看 数据 的 视角 ， 要 
更 加 重视 和 利用 以 往 被 忽视 的 数据 ， 如 交易 日 志 、 客 户 反 馈 与 社交 网 络 等 。 这 种 转变 需要 一 
个 接受 的 过 程 ， 但 已 经 实现 这 种 转变 的 企业 则 从 中 收获 颇 丰 。 据 有 关 统 计数 据 ， 电 子 商 务 企 
业 亚 马 逊 三 分 之 一 的 收入 来 源 于 基于 大 数据 相似 度 分 析 的 推荐 系统 的 贡献 ; 花旗 银行 新 产品 
的 创意 很 大 程度 上 来 自 于 从 各 个 渠道 收集 到 的 客户 反馈 数据 。 因 此 ， 在 大 数据 时 代 ， 业 务 部 
门 需要 以 更 新 的 视角 来 面 对 大 数据 ， 接 受 和 利用 好 大 数据 ， 以 创造 出 更 大 的 业务 价值 。 
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2. 技术 架构 不 同 带 来 的 挑战 

传统 的 结构 化 查询 语言 ( SQL ) 和 关系 型 数据 库 ( RDBMS ) 在 面 对 大 数据 时 ,已 经 显得 
力不从心 ， 刺 激 性 价 比 更 高 的 数据 计算 、 存 储 技术 和 工具 不 断 地 涌现 。 对 于 已 经 熟练 掌握 和 
使 用 传统 技术 的 企业 信息 技术 人 员 来 说 ， 接 受 、 学 习 和 掌握 这 些 新 的 技术 与 工具 需要 一 个 过 
程 ， 内 心 认为 现在 的 技术 和 工具 已 足够 好 ， 对 新 技术 会 产生 一 种 排斥 心理 ， 怀 疑 它 只 是 一 个 
新 的 喷头 ， 同 时 新 技术 本 身 的 不 成 熟 性 、 复 杂 性 和 用 户 不 友好 性 也 会 加 深 这 种 印象 。 应 该 看 
到 的 是 大 数据 时 代 的 技术 变革 已 经 不 可 北 转 ,企业 必须 积极 迎接 这 种 挑战 ， 以 包容 的 方式 迎 
接 新 技术 ， 以 集成 的 方式 实现 新 老 系统 的 整合 。 

3. 管理 策略 不 同 带 来 的 挑战 

大 容量 和 多 种 类 的 大 数据 处 理 将 带 来 企业 信息 基础 设施 的 重大 变革 ， 也 在 企业 信息 技术 
管理 、 服 务 、 投 资 和 信息 安全 治理 等 方面 带 来 了 新 的 挑战 。 像 如 何 利 用 私有 云 、 公 有 云 等 服务 
来 实现 企业 内 、 外 部 数据 的 处 理 和 分 析 ， 对 大 数据 架构 应 该 采取 什么 样 的 管理 和 投资 模式 ， 
对 大 数据 可 能 涉及 的 数据 隐私 应 当 如 何 保护 …… 这 些 都 是 企业 应 用 大 数据 需要 面 对 的 挑战 。 


和 1.2 大 数据 与 商业 智能 


1.2.1 商业 智能 的 概念 


商业 智能 ( Business Intelligence， 简 称 BI ) ， 又 称 商 务 智能 或 商业 智慧 ， 其 概念 于 1996 年 
由 Gartner Group 提出 。Gartner Group 将 商业 智能 定义 为 : 商业 智能 是 描述 一 系列 的 概念 和 方 
法 ， 通 过 应 用 基于 事实 的 支持 决策 系统 来 辅助 商业 决策 的 制定 和 实施 。 商 业 智 能 技术 提供 使 
企业 迅速 计算 分 析 数 据 的 技术 和 方法 ， 包 括 收集 、 组 织 、 管 理 和 分 析 数 据 ， 并 将 这 些 数据 转 
化 为 有 用 的 信息 ， 然 后 分 发 到 企业 各 处 - 不 过 ， 目 前 公认 的 商业 智能 的 定义 是 指 : 企业 在 收 
集 、 组 织 、 管 理 和 分 析 结 构 化 与 非 结构 化 的 数据 和 信息 时 ， 使 用 现代 信息 技术 ， 使 商务 决策 
水 平 得 以 提升 ， 商 务 知识 和 见解 得 以 创造 和 增加 ， 并 且 能 够 帮助 企业 完善 商务 流程 ， 采 取 更 
有 效 的 商务 行动 ， 提 升 各 方面 商务 绩效 ， 提 高 综合 竞争 力 的 智慧 和 能 力 。 

商业 智能 是 一 系列 技术 、 方 法 和 软件 的 总 称 ， 其 最 终 目的 是 提高 企业 运营 性 能 以 及 增加 
企业 商业 利润 。 对 于 商业 智能 这 个 概念 的 正确 理解 ， 应 从 四 个 层面 展开 ?。 商 业 智 能 的 转化 
如 图 1.3 所 示 。 


企业 的 利润 


知识 


图 1.3 ”商业 智能 的 转化 


© http://wenku.baidu.com/view/78088e6aaflffc4ffe47ac37.html. 
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第 一 ， 信 息 系 统 层面 。 它 是 商业 智能 系统 ( BI System ) 的 物理 基础 ， 是 一 个 面向 特定 应 
用 领域 的 信息 系统 平台 ， 一 个 独立 的 软件 工具 ， 具 有 非常 强大 的 决策 分 析 能 力 。 

第 二 ， 数 据 分 析 层 面 。 商 业 智能 是 一 系列 具有 计算 、 分 析 功 能 的 工具 、 算 法 或 模型 的 总 
称 。 在 数据 分 析 层 面 ， 首 先是 获取 数据 ， 获 取 与 所 关心 主题 有 关 的 高 质量 的 数据 或 信息 ， 然 
后 自动 或 人 工 参 与 使 用 具有 分 析 功能 的 算法 、 工 具 或 模型 ， 其 间 包括 分 析 信 息 、 得 出 结论 、 
形成 假设 与 验证 假设 等 一 系列 的 过 程 。 

第 三 ， 知 识 发 现 层面 。 它 与 数据 分 析 层 面 一 样 ， 也 是 一 系列 工具 、 算 法 或 模型 的 总 称 。 
这 一 层面 可 以 直接 将 信息 转变 成 知识 ,或 者 是 把 数据 转变 成 信息 后 ， 借 助 于 大 数据 分 析 挖 气 
技术 发 现 信息 背后 隐藏 的 东西 ， 然 后 将 信息 转变 成 知识 。 

第 四 ， 战 略 层面 。 这 一 层面 主要 是 将 知识 或 信息 应 用 在 改善 运营 能 力 和 提高 决策 能 力 以 
及 企业 建 模 等 上 面 。 商 业 智 能 的 战略 层面 是 提高 企业 决策 能 力 ， 是 通过 利用 应 用 假设 或 经 验 以 
及 一 个 或 多 个 数据 源 的 信息 所 形成 的 一 组 方法 、 概 念 和 过 程 的 集合 。 它 通过 获取 、 组 织 、 管 理 
和 分 析 数 据 ， 将 数据 和 信息 提供 给 贯穿 企业 组 织 的 各 类 人 员 ， 使 得 企业 的 决策 能 力 得 以 提高 。 


1.2.2 商业 智能 的 架构 体系 


商业 智能 所 涉及 到 的 数据 包括 来 自 企业 业务 系统 的 订单 、 交 易 账 目 、 库 存 、 客 户 和 供应 
商 资 料及 来 自 企 业 外 部 即 企 业 所 处 行业 和 竞争 对 手 的 数据 ， 以 及 来 自 企业 所 处 环境 的 其 他 外 
部 的 各 种 数据 。 商 业 智能 所 辅助 的 业务 经 营 决策 既 可 以 是 操作 层面 的 ， 也 可 以 是 战术 层 和 战 
略 层 的 决策 。 要 将 数据 转化 为 知识 ， 需 要 利用 数据 仓库 (DW ) 、 联 机 分 析 处 理 ( OLAP ) 工 
有 具 和 数据 挖掘 ( DM ) 等 技术 。 因 此 ， 从 技术 层面 上 来 讲 ， 商 业 智能 并 不 是 基础 技术 或 者 是 产 
品 技术 ， 而 是 数据 仓库 、 联 机 分 析 处 理 和 数据 挖掘 等 相关 技术 走向 商业 应 用 后 形成 的 一 种 应 
用 技术 ， 其 系统 架构 如 图 1.4 所 示 。 


| 数据 浙 | ,| ET 过程 | 数据 仓库 及 其 应 用 。 上 ,| Bf 展现 


图 1.4 ”商业 智能 系统 架构 体系 
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从 图 1.4 中 可 以 看 到 ,实现 商业 智能 应 用 有 四 个 非常 关键 的 环节 ， 包 括 数据 源 、ETL 过 
程 、 数 据 仓库 及 其 应 用 和 BI 前 端 展现 。 

(1) 数据 源 

数据 仓库 系统 的 数据 来 源 主要 是 外 部 的 操作 性 应 用 系统 以 及 内 部 的 业务 系统 。 这 些 数 据 
源 包括 数据 的 业务 含义 和 业务 规则 ， 表 达 业 务 数 据 的 表 、 字 段 、 视 图 、 列 和 索引 。 

(2 ) ETL 过 程 

即 抽取 ( Extraction ) 、 转 换 ( Transformation ) 和 装载 ( Load ) 过 程 。ETL 过 程 负责 将 业务 
系统 中 各 种 外 部 数据 、 关 系 型 数据 、 遗 留 数据 和 其 他 相关 数据 经 过 清洗 、 转 化 和 整理 后 放 进 中 心 
数据 仓库 。 

(3 ) 数据 仓库 及 其 应 用 

数据 仓库 是 商业 智能 系统 的 基础 ， 是 面向 主题 的 、 稳 定 的 、 集 成 的 和 随时 间 不 断 变化 的 
数据 集合 。 通 过 联机 在 线 分 析 处 理 ， 可 以 对 数据 仓库 中 的 多 维 数据 实行 钴 取 、 切 片 以 及 旋转 
等 分 析 操 作 ， 及 时 地 完成 决策 支持 所 需要 的 查询 及 报表 。 通 过 数据 挖掘 ， 可 以 挖掘 出 数据 背 
后 隐藏 的 知识 或 信息 。 通 过 关联 分 析 、 聚 类 分 析 和 判别 分 析 等 方法 建立 分 析 模型 ， 来 预测 企 
业 未 来 发 展 趋势 以 及 将 要 面临 的 问题 。 

(4) BI 前 端 展现 

在 海量 数据 和 分 析 手 段 不 断 增多 的 情况 下 ，BI 前 端 展 现 的 主要 功能 是 保障 系统 分 析 结 
的 可 视 化 。 一 般 认为 ,数据 仓库 、 联 机 在 线 分 析 和 数据 挖 所 技术 是 商业 智能 的 三 sw 
术 。 决 策 者 通过 正确 运用 商业 智能 技术 ， 将 使 用 结果 加 以 反馈 。 通 过 反馈 ， 可 以 暴露 出 潜在 
的 问题 ， 同 时 ， 也 可 以 根据 情况 变化 ， 表 达 新 的 需求 ， 提 高 商业 智能 流程 内 在 质量 。 

商业 智能 为 特定 的 应 用 系统 ( 如 客户 关系 管理 CRM 、 企 业 资 源 计 划 ERP 与 供应 链 管 理 
SCM ) 的 数据 环境 和 决策 分 析 提 供 支持 ， 在 企业 制订 战略 和 决策 时 提供 良好 的 支持 。 当 面 对 
特定 应 用 的 特定 战略 和 决策 问题 时 ， 商 业 智能 能 够 从 数据 准备 做 起 ， 建 立 或 虚拟 一 个 集成 的 
数据 环境 ， 以 集成 的 数据 环境 为 基础 ， 利 用 科学 的 决策 分 析 工 具 ， 并 通过 数据 分 析 、 知 识 发 
现 等 过 程 为 战略 制订 、 决 策 分 析 、 最 终 解释 、 执 行 分 析 和 发 现 结果 整个 过 程 提供 支持 。 在 这 
个 过 程 中 ， 集 成 的 数据 环境 和 决策 分 析 工 具 起 了 非常 重要 的 作用 。 


1.2.3 商业 智能 的 核心 技术 


商业 智能 实质 上 是 数据 转化 为 信息 的 过 程 ， 这 一 过 程 也 可 称 为 信息 供应 链 ， 其 目的 是 把 
初始 的 操作 型 数据 变 成 决策 所 使 用 的 商务 信息 。 在 这 一 过 程 中 ， 数 据 集成 工具 执行 原 数据 的 
清洗 、 格 式 转化 和 合并 计算 等 功能 ， 数 据 存储 过 程 建立 数据 存储 模型 ， 存 储 企业 统一 的 数据 
视图 ， 为 商业 智能 系统 的 应 用 提供 基础 数据 ;数据 分 析 工具 一 般 包括 联机 分 析 处 理 、 统 计 分 
析 工 具 、 数 据 挖掘 工具 以 及 其 他 人 工 智能 工具 ， 这 些 工 具 结合 商业 处 理 规则 ， 为 决策 者 提供 
决策 辅助 信息 。 从 商业 智能 系统 建立 的 技术 角度 来 看 ， 构 建 一 个 完整 的 商业 智能 系统 涉及 到 
以 下 三 种 核心 技术 。 

1. 数据 仓库 技术 

在 20 世 纪 80 年 代 中 期 出 现 了 数据 仓库 技术 。 此 技术 被 数据 仓库 创始 人 之 一 WH Inmon 
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定义 为 “数据 仓库 是 一 个 面向 主题 的 、 集 成 的 、 稳 定 的 和 包含 历史 数据 的 数据 集合 ， 它 用 
于 支持 管理 中 的 决策 制定 过 程 ”。 数 据 仓库 系统 是 对 数据 的 处 理 技术 的 集成 ， 而 商业 智能 系 
统 的 核心 是 解决 商业 问题 ， 它 把 数据 处 理 技术 与 商务 规则 相 结合 以 提高 商业 利润 ， 减 少 市 场 
运营 风险 ， 是 对 数据 仓库 技术 、 决 策 处 理 技术 和 商业 运营 规则 的 集合 。 数 据 仓库 与 传统 数据 
库存 储 的 最 大 区 别 在 于 ,数据库 用 于 处 理 企业 日 常事 务 ， 而 数据 仓库 则 主要 用 于 处 理 商务 运 
营 决 策 。 数 据 仓库 建立 的 目的 在 于 在 不 影响 日 常 操作 处 理 的 前 提 下 对 业务 信息 进行 分 析 以 辅 
助 企 业 决策 ， 为 决策 支持 系统 提供 应 用 基础 。 因 此 数据 库 与 数据 仓库 是 应 用 于 企业 运营 过 程 
中 不 同 目的 的 两 种 数据 管理 系统 。 数 据 的 存储 技术 是 数据 仓库 技术 的 核心 内 容 ， 在 数据 仓库 
中 被 集成 的 数据 常常 以 星 型 模式 展现 出 来 ， 即 以 事实 表 一 维 表 结构 来 组 织 数 据 。 事 实 表 也 称 
为 主 表 ， 包 括 商 务 活动 定量 的 或 实际 的 数据 ， 这 种 数据 是 可 以 用 数字 来 度量 的 ， 由 多 行 和 多 列 
组 成 ; 维 表 又 称 为 辅助 表 ， 一 般 比较 小 ， 是 反映 商业 活动 中 某 个 维 的 描述 性 的 数据 。 事 实 表 和 
维 表 通 过 关系 进行 连接 ， 这 样 的 组 织 方 式 被 称 为 多 维 数据 存储 的 星 型 模式 。 在 扩展 的 星 型 模式 
中 ， 维 表 本 身 还 能 够 包括 维 表 ， 这 样 在 组 成 的 数据 仓库 中 包含 了 商务 事实 的 物理 存储 模式 。 

2. 数据 挖掘 技术 

数据 挖掘 主要 用 于 从 大 量 的 数据 中 发 现 或 挖掘 隐藏 于 其 背后 的 规律 或 数据 之 间 的 关系 ， 
它 通常 采用 机 器 自动 识别 的 方式 ， 不 需要 太 多 的 人 工 干 预 。 采 用 数据 挖掘 技术 ， 可 以 为 用 户 
的 决策 分 析 提 供 自动 化 的 、 智 能 的 辅助 手段 ， 该 项 技术 在 金融 保险 业 、 零 售 业 、 医 疗 行业 等 
多 个 领域 都 可 以 得 到 很 好 的 应 用 。 在 数据 挖掘 技术 中 常用 的 数据 模型 主要 有 : 

@ 分 类 模型 ， 根 据 商 业 数据 的 属性 将 数据 分 配 到 不 同 的 组 别 中 。 

@ 关联 模型 ， 主 要 描述 一 组 数据 项 目的 密切 度 和 关系 。 

@ 顺序 模型 ， 主 要 用 于 分 析 数 据 仓库 中 的 某 类 同时 间 与 之 相关 的 数据 ， 并 发 现 某 一 时 间 
段 内 数据 的 相关 处 理 模型 。 顺 序 模型 可 以 看 成 是 一 种 特定 的 关联 模型 ， 它 在 关联 模型 中 增加 
了 时 间 属 性 。 

@ 聚 篮 模 型 ， 当 要 分 析 的 数据 缺乏 描述 性 信息 ， 或 者 是 无 法 组 织 成 任何 分 类 模式 时 ， 
可 以 采用 聚 秘 模 型 。 聚 复 模 型 按照 某 种 相近 程度 度量 方法 ， 将 用 户 数据 分 成 互 不 相同 的 一 些 
组 。 组 中 的 数据 相近 ， 组 之 间 的 数据 相差 较 大 。 聚 簇 模型 的 核心 是 将 某 些 明显 的 相近 程度 测 
量 方 法 转换 成 定量 测量 方法 。 

3. 联机 分 析 处 理 


联机 分 析 处 理 ( On-Line Analysis Processing， 简写 为 OLAP ) 的 概念 最 早 是 由 关系 数据 库 
之 父 爱 德 华 . 库 德 (EF Codd ) 博士 于 1993 年 提出 的 ， 是 一 种 用 于 组 织 大 型 商务 数据 库 和 
支持 商务 智能 的 技术 。OLAP 数 据 库 分 为 一 个 或 多 个 多 维 数据 集 ， 每 个 多 维 数据 集 都 由 多 维 数 
据 集 管理 员 组 织 和 设计 ， 以 适应 用 户 检索 和 分 析 数 据 的 方式 ， 从 而 更 易于 创建 和 使 用 所 需 的 
数据 透视 表 和 数据 透视 图 。OLAP 的 应 用 主要 是 针对 用 户 当前 及 历史 数据 进行 分 析 ， 辅 助 商业 
决策 。 其 典型 的 应 用 有 对 银行 信用 卡 风险 的 分 析 与 预测 、 公 司 精准 策略 的 制定 等 。 其 优势 是 
能 够 进行 大 量 的 查询 操作 ， 对 时 间 的 要 求 不 太 严 格 。 在 数据 仓库 应 用 中 ，OLAP 通 常 是 数据 仓 
库 应 用 的 前 端 工具 ， 同 时 ，OLAP 工 具 还 可 以 同 计算 分 析 工 具 和 数据 挖掘 工具 配合 使 用 ， 以 增 
强 决策 分 析 功 能 。 
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1.2.4 商业 智能 的 研究 内 容 和 发 展 方向 


1. 商业 智能 的 研究 内 容 
商业 智能 是 以 计算 机 高 级 技术 为 技术 支撑 、 以 现代 管理 技术 为 指导 的 应 用 型 系统 9， 其 


(1) 体系 结构 。 它 是 指 通 过 识别 和 理解 数据 在 系统 中 的 流动 过 程 和 数据 在 企业 的 应 用 
过 程 中 提供 的 商业 智能 系统 的 主 框 架 。 商 业 智 能 的 体系 结构 包括 : 数据 的 预 处 理 、 数 据 仓 
库 、 数 据 分 析 和 数据 可 视 化 等 几 部 分 。 针 对 指定 的 应 用 会 有 相应 的 体系 结构 ， 从 而 使 商业 智 
能 具有 良好 的 性 能 。 

(2 ) 支撑 技术 。 商 业 智能 是 一 个 20 世 纪 90 年 代 末期 出 现 的 跨 学 科 的 新 兴 领 域 ， 它 的 发 
展 借助 于 两 方面 的 先进 成 果 : 一 是 计算 机 技术 ， 比 如 数据 仓库 技术 、 数 据 挖掘 技术 、 联 机 分 
析 处 理 技 术 、 数 据 可 视 化 技术 、 数 据 预 处 理 技术 和 计算 机 网 络 技术 等 ; 另 一 个 是 现代 管理 技 
术 ， 比 如 预测 和 统计 等 运筹 学 方法 ， 供 应 链 管 理 、 企 业 资 源 计划 、 客 户 管理 等 管理 理论 与 方 
法 ， 此 外 ,还 有 目前 在 研究 领域 比较 热 的 建 模 技 术 与 方法 。 支 撑 技术 的 研究 主要 围绕 两 部 分 
展开 : 决策 支持 工具 研究 和 企业 建 模 方法 研究 。 其 中 决策 分 析 工 具 的 研究 还 包括 对 各 种 分 析 
方法 的 研究 ， 而 企业 建 模 则 是 解决 如 何 建立 特定 企业 模式 的 辅助 工具 。 

(3 ) 应 用 系统 。 应 用 系统 主要 是 当 问题 出 现 后， 要 根据 提出 的 解决 方案 或 方式 决定 具 
体 的 解决 方法 以 及 商业 智能 系统 需要 具备 的 功能 ， 其 研究 重点 主要 是 分 析 各 个 应 用 领域 所 面 
临 的 决策 性 问题 。IT 技 术 、 人 工 智能 等 技术 的 不 断 发 展 ， 为 商业 智能 的 完善 提供 了 强大 的 技 
术 支 持 。 

当前 ， 商 业 智能 在 企业 运营 的 相关 领域 及 其 他 很 多 领域 形成 了 其 特有 的 体系 ， 并 且 应 
用 广泛 。 其 中 具有 代表 性 的 有 : 人 力 资 源 管理 (HRM ) 、 企 业 资 源 计 划 、 企 业 性 能 管理 
(BPM ) 、 客 户 关 系 管理 、 电 子 商 务 (E-Business ) 以 及 供应 链 管理 。 

2. 商业 智能 的 发 展 趋势 


(1) 注重 人 性 化 ,逐渐 “傻瓜 ”化 

今后 商业 智能 的 门户 将 更 加 注重 人 性 化 ， 功 能 也 会 逐渐 “傻瓜 ”化 ， 强 调 易 用 性 ， 更 
加 开放 以 及 稳定 性 更 高 。 此 外 更 加 重视 整合 众多 信息 来 源 , 使 人 与 人 之 间 的 沟通 与 合作 更 加 
便捷 ， 帮 助 可 拓展 的 管理 支撑 平台 框架 进一步 完善 ， 从 而 实现 从 “人 去 找 系统 ”到 “系统 找 
人 ”的 全 新 理念 的 转变 。 

未 来 商业 智能 系统 能 帮助 人 们 充分 发 掘 和 释放 潜能 ， 帮 助 合适 的 角色 在 合适 的 时 间 、 地 
点 里 获得 合适 的 知识 和 数据 ， 并 且 帮 助 企 业 将 数据 和 信息 转变 为 一 种 意念 、 能 力 ， 从 而 指导 
人 的 行为 。 在 这 里 “人 性 化 ”也 可 以 称 为 是 一 种 “自动 化 ”， 使 管理 系统 的 价值 与 作用 得 以 
最 大 地 体现 。 

(2 ) 不 断 集成 ， 演 变 成 门户 化 

与 决策 支持 系统 ( DSS ) 相 比 ， 商 业 智 能 具有 更 加 美好 的 发 展 前 景 。 未 来 的 商业 智能 将 
会 全 面 集 成 信息 服务 ， 可 以 通过 类 似 “ 门 户 ”的 技术 对 各 项 业务 进行 系统 地 整合 ，BI 可 以 融 
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合集 成 CRM 、ERP 与 SCM 等 应 用 系统 。 同 时 也 可 以 联结 企业 所 有 信息 资源 和 信息 系统 以 及 工 
作 人 员 ， 从 而 真正 实现 跨 平 台 ， 最 后 演变 成 门户 化 。 

(3 ) 移动 BI 将 成 为 新 战场 

工信部 的 统计 数据 显示 ， 截 止 到 2014 年 5 月 底 中 国 的 手机 用 户 数 量 已 达到 12.56 亿 人 ，,， 相 
当 于 中 国 90.8% 的 人 都 在 使 用 手机 。 而 在 所 有 使 用 手机 的 人 中 ， 使 用 手机 上 网 的 用 户 数量 为 
8.57 亿 人 ， 占 总 数量 的 68.24%。 这 些 数字 还 在 不 断 地 增长 ， 可 以 大 胆 地 预测 ， 未 来 利用 新 技 
术 ， 移 动 协同 应 用 将 成 为 BI 新 的 增长 点 。 何 谓 移 动 协同 应 用 ， 即 用 户 可 以 在 智能 手机 移动 平 
台 上 提交 数据 ， 并 且 获 取 分 析 报 告 ， 实 现 商务 智能 与 数据 分 析 无 处 不 在 、 无 时 不 在 的 实时 动 
态 管理 。 该 技术 将 会 给 传统 的 BI 带 来 巨大 的 改变 。 因 此 ， 移 动 BI 协同 应 用 将 是 未 来 管理 的 巨 
大 亮点 。 当 前 国内 一 些 领 先 的 、 主 流 的 BI 软件 企业 正在 积极 地 利用 现代 手机 移动 技术 ,想必 
未 来 的 BI 移 动 办 公 以 及 无 线 掌控 将 使 管理 者 可 脱离 时 间 地 点 的 控制 ， 随 时 随地 、 随 心 所 和 欲 地 
进行 管理 。 

(4 ) 结合 云 计算 ， 在 云 中 部 署 BI 

近年 来 ， 云 计算 的 发 展 如 火 如 茶 。 由 于 云 计算 拥有 极其 强大 的 功能 ， 因 此 ， 商 业 智能 部 
署 的 主流 方向 将 会 是 以 云 为 基础 的 商业 智能 在 线 服务 。 

可 以 说 各 个 BI 厂商 未 来 的 生存 线 与 云 计算 的 发 展 息息相关 。 从 另 一 个 角度 考虑 ，BI 软 件 
的 发 展 以 及 受 欢 迎 程度 必须 要 使 产品 基于 面向 云 规模 架构 的 设计 ， 并 符合 云 运营 模式 。 即 使 
BI 在 向 云 迁 移 的 这 个 过 程 中 会 遇 到 许多 困难 与 挑战 ，“ 在 云 中 部 署 BI” 也 不 再 是 天 方 夜 谭 ， 
越 来 越 多 的 企业 会 将 其 业务 应 用 置 于 云端 。 目 前 ，BI 专 业 厂 商 Informatica 发 布 的 Informatica BI 
数据 集成 平台 也 已 经 能 同时 部 署 在 “ 云 ” 网 络 或 预 装 在 系统 中 ， 为 企业 用 户 提供 云端 集成 服 
务 。 据 了 解 ， 该 公司 已 经 党 试 向 用 户 交 付 云 服务 。 


1.2.5 商业 智能 与 大 数据 的 关系 


大 数据 与 商业 智能 既 相互 区 别 又 相互 联系 ?， 大 数据 是 商业 智能 概念 外 延 的 扩展 、 手 自 
的 扩充 ， 而 不 是 取代 的 关系 ， 也 不 是 互 斥 的 关系 。 

1. 联系 

二 者 目的 相同 。 无 论 是 大 数据 还 是 商业 智能 ， 其 目的 都 是 为 分 析 服 务 ， 对 数据 进行 全 面 
的 整合 ， 发 现 新 的 商业 机 会 。 对 用 户 来 说 ， 其 目的 主要 是 得 到 一 份 完整 的 解决 方案 ， 形 成 一 
个 全 面 、 完 整 的 数据 价值 发 现 平台 。 该 解决 方案 不 仅 要 能 对 企业 内 部 的 业务 数据 进行 收集 、 
处 理 和 分 析 ， 要 能 引入 互联 网 上 的 非 结构 化 数据 ， 如 浏览 的 信息 、 微 博 和 微 信 等 ， 还 要 将 移 
动 设备 的 位 置信 息 利用 起 来 。 

大 数据 促进 商业 智能 的 发 展 。 大 数据 能 够 对 内 、 对 外 产生 价值 ， 同 时 在 保护 隐私 、 保 护 
数据 安全 的 情况 下 ， 能 够 在 不 同 组 织 间 自 由 流动 形成 整个 社会 的 数据 基础 设施 ， 进 而 形成 
一 个 平台 。 传统 的 商业 智能 无 法 处 理 日 益 复杂 的 数据 ， 因 此 对 传统 的 商业 智能 的 扩展 将 成 为 
未 来 的 焦点 。 


© http://www.kmcenter.org/html/s55/201309/03—14901_2.html. 
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目前 ， 尽 管 大 多 数 业内 人 士 认为 ， 在 数据 分 析 市 场 中 大 数据 与 商业 智能 就 像 两 个 行驶 在 
不 同 轨道 上 的 列车 ， 在 并 肩 前 行 的 同时 偶 有 交叉 。 但 是 在 技术 上 ， 为 提升 数据 分 析 能 力 、 提 
高 洞察 力 ， 大 数据 与 商业 智能 之 间 早 就 开始 了 交流 与 互动 ， 以 期 更 好 地 发 展 成 长 。 

2. 区 别 


商业 智能 与 大 数据 服务 的 领域 侧重 点 不 一 样 。 现 在 可 大 致 将 数据 资产 划分 为 三 种 类 型 ， 
即 企业 内 部 的 业务 数据 、 公 共 服 务 机 构 的 数据 ( 如 物 联网 相关 数据 ) 以 及 与 互联 网 相关 的 数 
据 (如 网 络 日 志 、 微 博 等 ) 。 商 业 智 能 的 服务 领域 侧重 于 前 两 者 ， 而 大 数据 则 侧重 于 第 三 
者 ， 即 与 互联 网 相关 的 数据 处 理 与 分 析 。 

二 者 应 用 的 难 易 程度 不 一 样 。 很 长 时 间 以 来 ， 商 业 智 能 被 认为 是 大 企业 专 有 ， 因 此 被 称 
为 是 “贵族 ”。 其 最 经 典 的 架构 是 以 数据 仓库 为 基础 ， 搭 建 使 用 专用 设备 的 数据 仓库 ， 利 用 
ETL 工 具 进行 数据 的 抽取 、 转 换 与 建 模 ， 然 后 通过 报表 、 驾 驶 舱 等 形式 进行 结果 展示 ， 在 整 
个 过 程 中 ， 每 个 环节 相 比较 于 其 他 非 商 业 智 能 形式 都 更 加 耗 时 耗资 。 相 对 而 言 ， 大 数据 采用 通 
用 硬件 设备 加 开源 软件 就 可 以 实现 ， 成 本 低 ， 主 要 面向 互联 网 企业 ， 因 此 被 称 为 “草根 ”。 

二 者 效率 、 可 靠 性 和 安全 性 发 展 程度 不 一 样 。 众 所 周知 ， 在 过 去 的 20 多 年 间 ， 传 统 商 
业 智能 从 磁盘 数据 库 转 向 内 存 数 据 库 ， 从 行 式 存储 数据 库 转 为 列 式 存 储 数据 库 ， 数 据 仓库 实 
施 从 延 时 多 维 变 为 实时 抽取 ， 软 件 架构 也 从 对 称 多 处 理 机 ( SMP ) 转 为 大 规模 并 行 处 理 系 统 
( MPP ) 等 。 用 户 对 数据 处 理 和 分 析 需 求 的 不 断 增加 推动 了 这 些 转 变 的 发 生 。 一 个 成 熟 的 数 
据 处 理 平 台所 必须 具备 的 条 件 包括 效率 、 可 靠 性 和 安全 性 ， 而 在 这 些 方面 传统 BI 已 经 走 过 了 
近 20 年 的 发 展 历程 ， 可 以 提供 很 多 值得 借鉴 的 技术 和 方法 。 因 此 ， 对 于 大 数据 而 言 ， 这 是 它 
首先 需要 学 习 和 发 展 的 地 方 。 

二 者 生态 系统 的 完善 程度 不 一 样 。 商 业 智 能 已 经 存在 了 20 多 年 ， 相 对 而 言 更 加 成 熟 ， 其 
生态 系统 也 相对 更 完善 。 此 外 ,大 量 企业 在 传统 的 商业 智能 方面 投入 很 多 ， 很 多 业务 都 是 围 
绕 该 系统 进行 的 ， 在 数据 采集 、 处 理 、 存 储 、 分 析 以 及 可 视 化 软件 等 方面 开展 了 很 多 工作 。 
相 比较 而 言 ， 大 数据 出 现 的 时 间 较 短 ， 应 用 不 及 传统 商业 智能 广泛 ， 其 生态 系统 也 不 如 传统 
商业 智能 完善 9。 

1.2.6 商业 智能 与 大 数据 的 结合 应 用 

随 着 大 数据 时 代 的 到 来 ， 商 业 智能 与 大 数据 的 结合 越 来 越 紧密 ， 并 且 已 经 应 用 到 了 各 行 
各 业 中 ， 如 图 1.5 所 示 。 

商业 智能 与 大 数据 相 结合 ， 在 各 行 各 业 中 得 到 了 广泛 应 用 ， 其 典型 应 用 主要 体现 在 四 个 
方面 。 

1. 产品 销售 管理 ( Product Sales Management ) 

产品 销售 管理 包括 产品 销售 影响 因素 分 析 、 销 售 量 分 析 、 销 售 策略 及 产品 销售 方案 的 预 
测 四 个 方面 。 首 先 ， 为 方便 分 析 产 生 了 不 同 结果 的 销售 模型 的 销售 量 及 销售 策略 ， 对 影响 销 
售 的 因素 进行 分 析 和 评估 ， 根 据 不 同 的 销售 环境 ， 对 相应 的 产品 销售 方案 帮助 制定 产品 上 架 
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和 下 架 计 划 ， 使 企业 营销 额 得 以 提高 。 可 根据 系统 储存 的 产品 销售 信息 建立 总 体 销 售 模型 
和 区 域 、 部 门 销售 模型 。 除 此 之 外 ， 还 可 以 通过 对 历史 数据 分 析 ， 建 立 预测 模型 ， 提 高 销 
售 量 。 


金融 服务 业 
" 欺诈 检测 
' 360° 客户 视图 


交通 运输 
物流 优化 也 
. 缓解 交通 拥堵 


健康 与 生命 科学 
“病历 分 析 
“ 疾病 监测 


通讯 9 鱼 司法 执行 

* 客户 资料 货币 化 “多 点 监测 

* 网 络 分 析 & 优 化 “网络 安 全 检测 
图 1.5 商业 智能 与 大 数据 结合 的 应 用 


能 源 与 公用 事业 
“ 智能 电表 分 析 
“ 资产 管理 


2. 事实 管理 ( Management by Fact ) 

无 论 是 目标 管理 还 是 例外 管理 ， 都 需要 用 事实 说 话 ， 用 事实 予以 支持 。 过 去 ， 在 信息 缺 
乏 的 年 代 ， 管 理 层 更 多 地 是 依靠 个 人 的 经 验 和 直觉 进行 管理 以 及 制定 决策 。 而 在 当今 知识 经 
济 时 代 ， 在 每 天 的 交易 之 中 ， 维 持 企 业 营 运 的 ERP 系 统 已 积累 了 庞大 的 事实 与 知识 ， 这 时 就 
需要 进一步 对 这 些 事实 与 知识 充分 分 析 并 利用 ， 结 合 企业 目标 、 例 外 与 事实 ， 查 询 并 探测 相 
关 信 息 ， 以 便 更 好 地 决策 。 这 些 商 业 智能 系统 就 能 做 到 。 

因此 ,企业 必须 实施 事实 管理 ， 不 靠 个 人 经 验 和 直觉 ， 以 了 解 企业 每 日 的 商务 情况 信息 
为 基础 ， 借 助 于 商业 智能 进行 科学 决策 。 

3. 异常 处 理 ( Management by Exception ) 


在 实际 运行 中 ， 总 会 有 一 些 偏差 产生 ， 商 业 智能 系统 可 以 监测 实际 与 计划 目标 的 偏差 ， 
实时 并 持续 地 计算 各 种 绩效 目标 ,这 是 商业 智能 数据 挖掘 应 用 的 典型 案例 。 在 出 现 偏 差 过 大 
的 情况 时 ， 系 统 会 采取 各 种 通讯 方式 在 第 一 时 间 通 知 企业 责任 主管 ， 帮 助 企 业主 管 及 时 知晓 
偏差 状况 ， 降 低 企业 风险 ， 进 而 提高 企业 收益 。 其 具体 应 用 包括 银行 及 保险 等 行业 的 欺诈 监 
测 、 信 用 卡 分 析 等 。 

4. 客户 关系 管理 ( Customer Relationship Management ) 


众所周知 ， 顾 客 是 企业 生存 发 展 的 关键 因素 ， 客 户 关系 管理 自然 就 成 为 企业 一 项 重要 的 
工作 。 为 了 采取 相应 对 策 保 持 顾客 数量 ,培养 忠实 顾客 ,维持 良好 的 客户 关系 ， 企 业 可 以 通 
过 商业 智能 的 客户 关系 管理 子 系统 对 顾客 消费 习惯 和 消费 倾向 进行 分 析 ， 以 便 提高 顾客 满 
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和 1.3 大 数据 相关 技术 与 应 用 概况 


1.3.1 大 数据 的 相关 技术 


大 数据 技术 ， 就 是 从 各 种 类 型 的 数据 中 快速 获取 有 价值 信息 的 技术 。 大 数据 领域 已 经 涌 
现 出 了 大 量 新 的 技术 ， 它 们 成 为 大 数据 采集 、 存 储 、 处 理 和 呈现 的 有 力 武器 。 大 数据 处 理 相 
关 的 技术 一 般 包括 : 大 数据 采集 、 大 数据 准备 、 大 数据 存储 、 大 数据 分 析 与 挖掘 以 及 大 数据 
展示 与 可 视 化 等 ， 如 图 1.6 所 示 。 


(EE 


大 数据 展示 与 可 视 化 
EE 
大 数据 分 析 与 挖掘 
Mahout | Storm | BC-BSP ] Dremel JMapReduce| Hive 
从 a NoSQL( Hbase、MongoDB、OceanBase 等 ) 
大 数据 存储 Nsor | sor 
HDFS 
1 
i 
2 
「 1 实时 数据 数据 源 
大 数据 采集 (视频 摄像 头 、 非 实时 数据 (互联 网 、 物 联网 、 
虹 J _ 传感器 等 ) 企业 数据 等 ) 
图 1.6 ”大 数据 的 技术 体系 
1. 大 数据 采集 


大 数据 采集 是 指 通过 RFID 射 频数 据 、 传 感 器 数据 、 视 频 摄像 头 的 实时 数据 、 来 自 历 史 
视频 的 非 实时 数据 ， 以 及 社交 网 络 交互 数据 及 移动 互联 网 数据 等 方式 获得 的 各 种 类 型 的 结构 
化 、 半 结构 化 ( 或 称 弱 结构 化 ) 及 非 结 构 化 的 海量 数据 。 大 数据 采集 是 大 数据 知识 服务 体系 
的 根本 。 大 数据 采集 一 般 分 为 大 数据 智能 感知 层 和 基础 支撑 层 。 大 数据 智能 感知 层 : 主要 包 
括 数据 传 感 体系 、 网 络 通信 体系 、 传 感 适 配 体系 、 智 能 识别 体系 及 软 硬 件 资源 接 人 系统 ， 实 
现 对 结构 化 、 半 结构 化 和 非 结 构 化 的 海量 数据 的 智能 化 识别 、 定 位 、 跟 踪 、 接 人 人、 传输 、 信 
号 转换 、 监 控 、 初 步 处 理 和 管理 等 ， 需 要 着 重 攻克 针对 大 数据 源 的 智能 识别 、 感 知 、 适 配 、 
传输 、 接 入 等 技术 。 基 础 支撑 层 : 提供 大 数据 服务 平台 所 需 的 虚拟 服务 器 ， 结 构 化 、 半 结构 
化 及 非 结 构 化 数据 的 数据 库 以 及 物 联网 络 资源 等 基础 支撑 环境 ， 需 要 重点 攻克 分 布 式 虚 拟 存 
储 技 术 ， 大 数据 获取 、 存 储 、 组 织 、 分 析 和 决策 操作 的 可 视 化 接口 技术 ， 大 数据 的 网 络 传输 
与 压缩 技术 ， 大 数据 隐私 保护 技术 等 。 大 数据 采集 方法 主要 包括 : 系统 日 志 采集 、 网 络 数据 
采集 、 数 据 库 采 集 和 其 他 数据 采集 四 种 。 


2. 大 数据 准备 


大 数据 准备 主要 是 完成 对 数据 的 抽取 、 转 换 和 加 载 等 操作 。 因 获取 的 数据 可 能 具有 多 种 
结构 和 类 型 ， 数 据 抽取 过 程 可 以 帮助 用 户 将 这 些 复杂 的 数据 转化 为 单一 的 或 者 便于 处 理 的 结 
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构 ， 以 达到 快速 分 析 处 理 的 目的 。 目 前 主要 的 ETL 工 具 是 Flume 和 Kettle。Flume 是 Cloudera 提 

供 的 一 个 高 可 用 、 高 可 靠 、 分 布 式 的 海量 日 志 采 集 、 聚 合 和 传输 系统 ; Kettle 是 一 款 国 外 开源 

的 ETL 工 具 ， 由 纯 Java 编 写 ， 可 以 在 Windows、Linux 和 UNIX 上 运行 ， 数 据 抽 取 高 效 且 稳定 。 
3. 大 数据 存储 


大 数据 对 存储 管理 技术 的 挑战 主要 在 于 扩展 性 。 首 先是 容量 上 的 扩展 ， 要 求 底层 存储 架 
构 和 文件 系统 以 低 成 本 方式 及 时 、 按 需 扩 展 存储 空间 。 其 次 是 数据 格式 可 扩展 ， 满 足 各 种 非 
结构 化 数据 的 管理 需求 。 传 统 的 关系 型 数据 库 管 理 系统 ( RDBMS ) 为 了 满足 强 一 致 性 的 要 
求 ， 影 响 了 并 发 性 能 的 发 挥 ， 而 采用 结构 化 数据 表 的 存储 方式 ， 对 非 结构 化 数据 进行 管理 时 
又 缺乏 灵活 性 。 目 前 ， 主 要 的 大 数据 组 织 存储 工具 包括 : HDFS， 它 是 一 个 分 布 式 文件 系统 ， 
是 Hadoop 体 系 中 数据 存储 管理 的 基础 NoSQL,， 泛 指 非 关系 型 的 数据 库 ， 可 以 处 理 超大 量 的 
数据 ; NewSQL 是 对 各 种 新 的 可 扩展 /高 性 能 数据 库 的 简称 ， 这 类 数据 库 不 仅 具 有 NoSQL 对 海 
量 数据 的 存储 管理 能 力 ， 还 保持 了 传统 数据 库 支持 ACID 和 SQL 等 特性 ; HBase 是 一 个 针对 结 
构 化 数据 的 可 伸缩 、 高 可 靠 、 高 性 能 、 分 布 式 和 面向 列 的 动态 模式 数据 库 ; OceanBase 是 一 个 
支持 海量 数据 的 高 性 能 分 布 式 数据 库 系 统 ， 实 现 了 在 数 千 亿 条 记录 、 数 百 TB 数据 上 的 跨行 跨 
表 事 务 。 此 外 还 有 MongoDB 等 组 织 存储 技术 。 

4. 大 数据 分 析 与 挖掘 


大 数据 分 析 与 挖掘 技术 是 基于 商业 目的 ， 有 目的 的 进行 收集 、 整 理 、 加 工 和 分 析 数 据 ， 
提炼 有 价 信息 的 一 个 过 程 。 数 据 分 析 是 指 通过 分 析 手 段 、 方 法 和 技巧 对 准备 好 的 数据 进行 探 
索 、 分 析 ， 从 中 发 现 因果 关系 、 内 部 联系 和 业务 规律 ， 为 商业 目标 提供 决策 参考 。 目 前 主要 
的 大 数据 计算 与 分 析 软 件 包 括 : Datawateh， 是 一 款 用 于 实时 数据 处 理 、 数 据 可 视 化 和 大 数据 
分 析 的 软件 ; Stata 是 一 套 提 供 其 使 用 者 进行 数据 分 析 、 数 据 管理 以 及 绘制 专业 图 表 的 完整 及 
整合 性 统计 软件 ; Matlab 是 一 款 商 业 数学 软件 ， 一 种 用 于 算法 开发 、 数 据 可 视 化 、 数 据 分 析 
以 及 数值 计算 的 高 级 技术 计算 语言 和 交互 式 环境 ; SPSS“ 统 计 产 品 与 服务 解决 方案 ”软件 ， 
为 IBM 公 司 推出 的 一 系列 用 于 统计 分 析 运 算 、 数 据 挖掘 、 预 测 分 析 和 决策 支持 任务 的 软件 产 
品 及 相关 服务 的 总 称 ; SAS 是 一 个 功能 强大 的 数据 库 整 合 平台 ， 可 进行 数据 库 集 成 、 序 列 查 
询 和 序列 处 理 等 工作 ; Storm 是 一 个 分 布 式 的 、 容 错 的 实时 计算 系统 ; Hive 是 建立 在 Hadoop 
基础 上 的 数据 仓库 架构 ， 它 为 数据 仓库 的 管理 提供 了 许多 功能 ,包括 数据 ETL ( 抽取 、 转 换 
和 加 载 ) 工具 、 数 据 存 储 管理 和 对 大 型 数据 集 的 查询 和 分 析 能 力 。 此 外 还 有 R、BC-BSP、 
Dremel 等 计算 和 分 析 工 具 。 

数据 挖掘 就 是 从 大 量 的 、 不 完全 的 、 有 噪声 的 、 模 糊 的 和 随机 的 由 实际 应 用 产生 的 数 
据 中 ， 提 取 隐 含 在 其 中 的 ， 但 又 是 潜在 有 用 的 信息 和 知识 的 过 程 。 目 前 主要 的 数据 挖掘 工 
具有 : Mahout， 一 个 用 于 机 器 学 习 和 数据 挖掘 的 分 布 式 框架 ， 区 别 于 其 他 的 开源 数据 挖掘 软 
件 ， 它 是 基于 Hadoop 之 上 的 ; R 是 属于 GNU 系 统 的 一 个 自由 、 免 费 、 源 代码 开放 的 软件 ， 它 
是 一 个 用 于 统计 计算 和 统计 制图 的 优秀 工具 。 此 外 Datawatch、MATLAB、SPSS、SAS 和 Stata 
等 都 有 着 强大 的 数据 挖掘 功能 。 其 中 Datawatch 桌 面 允 许 用 户 访问 、 抽 取 任 何 数据 信息 并 将 其 
转换 为 实时 数据 ， 以 便 显示 、 分 析 并 与 其 他 用 户 以 及 系统 分 享 。 企 业 用 户 可 以 在 Datawatch 桌 


第 1 章 ”大 数据 概论 | 19 


面 上 打开 报告 或 文件 ， 即 点 即 选 ， 数 据 立 即 就 能 提取 出 来 。Datawatch 系 统 创建 了 可 复 用 模 
型 ， 定 义 了 数据 到 行 和 列 的 转换 。 仅 需 一 次 点 击 动作 ， 用 户 就 能 将 最 新 的 数据 集 显 示 于 仪表 
板 上 ， 并 开始 可 视 化 数据 发 掘 工作 。 

5. 大 数据 展示 与 可 视 化 

大 数据 可 视 化 技术 可 以 提供 更 为 清晰 直观 的 数据 表现 形式 ， 将 错综复杂 的 数据 和 数据 
之 间 的 关系 ,通过 图 片 、 映 射 关系 或 表格 ， 以 简单 、 友 好 、 易 用 的 图 形 化 、 智 能 化 的 形式 呈 
现 给 用 户 ， 供 其 分 析 使 用 。 可 视 化 是 人 们 理解 复杂 现象 ， 诊 释 复杂 数据 的 重要 手段 和 途径 ， 
可 通过 数据 访问 接口 或 商业 智能 门户 实现 ， 以 直观 的 方式 表达 出 来 。 可 视 化 与 可 视 化 分 析 
通过 交互 可 视界 面 来 进行 分 析 、 推 理 和 决策 ， 可 从 海量 、 动 态 、 不 确定 甚至 相互 冲突 的 数 
据 中 整合 信息 ， 获 取 对 复杂 情景 的 更 深层 的 理解 ， 供 人 们 检验 已 有 预测 ， 探 索 未 知 信息 ， 
同时 提供 快速 、 可 检验 、 易 理解 的 评估 和 更 有 效 的 交流 手段 。 目 前 ，Datawatch、MATLAB、 
SPSS、SAS、Stata 等 都 有 数据 可 视 化 功能 ， 其 中 Datawatch 是 数据 可 视 化 方面 最 流行 的 软件 之 
一 。 完 整 的 可 视 化 分 析 系 统 的 一 个 基本 要 素 是 : 具有 处 理 大 量 多 变量 时 间 序 列 数 据 的 能 力 。 
Datawatch Designer 可 以 提供 一 系列 专业 化 的 数据 可 视 化 方案 ,包括 地 平 线 图 、 堆 栈 图 以 及 线 
形 图 等 ， 让 历史 数据 分 析 更 简单 、 更 高 效 。 该 软件 能 够 连接 传统 的 列 导向 和 行 导 向 的 关系 型 
数据 库 ， 从 而 支持 对 大 型 数据 集 进行 快速 、 有 效 的 多 维 分 析 。Datawatch 提 供 了 卓越 的 时 间 序 
列 分 析 能 力 ， 是 全 球 投资 银行 、 对 冲 基金 、 自 营 交 易 公司 以 及 交易 用 户 必 不 可 少 的 法 宝 。 


1.3.2 大 数据 的 应 用 概况 


大 数据 应 用 自然 科学 的 知识 来 解决 社会 科学 中 的 问题 ， 在 许多 领域 具有 重要 的 应 用 。 早 
期 的 大 数据 技术 主要 应 用 在 大 型 互联 网 企业 中 ,用 于 分 析 网 站 用 户 数据 以 及 用 户 行为 等 。 现 
在 ,传统 企业 、 公 用 事业 机 构 等 有 大 量 数据 需要 处 理 的 组 织 和 机 构 ， 也 越 来 越 多 地 使 用 大 数 
据 技 术 以 便 完成 各 种 功能 需求 。 除 了 常见 的 商业 智能 和 企业 营销 外 ， 大 数据 技术 也 开始 较 多 
地 应 用 于 社会 科学 领域 ， 并 在 数据 可 视 化 、 关 联 性 分 析 、 经 济 学 和 社会 科学 领域 发 挥 重 要 的 
作用 。 大 数据 应 用 基本 上 呈现 出 互联 网 领先 ， 其 他 行业 积极 效仿 的 态势 ， 而 各 行业 数据 的 共 
享 开放 已 逐渐 成 为 趋势 。 

1. 大 数据 在 互联 网 中 的 应 用 

互联 网 企业 在 大 数据 应 用 中 处 于 领先 地 位 ， 并 逐步 深入 到 其 他 行业 中 。 互 联网 企业 开 
展 大 数据 应 用 拥有 得 天 独 厚 的 优势 。 互 联网 拥有 大 量 的 数据 和 强大 的 技术 平台 ， 同 时 掌握 大 
量 用 户 行为 数据 ， 能 够 进行 不 同 领域 的 纵深 研究 。 如 谷歌 、Twitter、 亚 马 逊 、 新 浪 、 阿 里 巴 
巴 等 互联 网 企业 已 广泛 开展 定向 广告 、 个 性 推荐 等 较 成 熟 的 大 数据 应 用 。 在 此 基础 上 ，2012 
年 ， 谷 歌 发 布 了 其 大 数据 的 跨 界 应 用 一 一 无 人 驾驶 汽车 。 依 靠 庞大 的 道路 信息 数据 ( 每 秒 钟 
会 采集 超过 750MB 的 数据 ) ， 无 人 驾驶 汽车 能 够 智能 地 选择 路 径 以 及 自动 驾驶 。 国 内 互联 网 企 
业 以 阿里 巴巴 为 代表 ， 其 在 2012 年 7 月 就 已 推出 了 数据 分 享 平 台 “ 聚 石塔 ”， 为 淘宝 、 天 猫 等 
平台 上 的 电 商 提供 数据 云 服 务 ， 并 扩展 到 金融 领域 和 物流 领域 。 阿 里 巴巴 基于 对 用 户 交易 行 
为 的 大 数据 分 析 ， 提 供 面向 中 小 企业 的 信用 贷款 。 据 透露 ， 截 至 到 目前 ， 阿 里 巴巴 已 经 放贷 
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300 多 亿 元 ， 而 坏账 率 仅 为 0.3% 左 右 。2013 年 5 月 ， 阿 里 巴巴 成 立 的 “菜鸟 ”网 络 物流 ， 也 是 
基于 大 数据 平台 ， 利 用 大 数据 平台 的 分 析 ， 联 手 各 大 物流 企业 ， 来 选择 最 高 效 的 送 达 方式 。 


2. 大 数据 在 企业 中 的 应 用 


大 数据 的 挖掘 和 应 用 成 为 未 来 的 核心 技术 ， 将 从 多 个 方面 创造 价值 。 大 数据 的 重心 将 从 
传输 和 存储 过 渡 到 数据 的 挖掘 和 应 用 ， 这 将 深刻 地 影响 企业 的 商业 模式 。 据 麦肯锡 预测 ， 大 
数据 应 用 每 年 可 潜在 地 为 美国 医疗 健康 业 和 欧洲 政府 分 别 节省 3000 亿 美元 和 1000 亿 欧元 ， 利 
用 个 人 位 置信 息 潜在 地 可 创造 出 6000 亿 美元 的 价值 ， 因 此 ， 大 数据 的 应 用 是 具有 远 超 万 亿美 
元 的 大 市 场 。 

企业 的 决策 方法 多 以 事实 为 基础 ， 大 量 使 用 数据 分 析 来 优化 企业 运营 的 各 个 环节 和 流 
程 ， 通 过 基于 数据 分 析 的 业务 优化 和 重组 ， 把 业务 流程 和 决策 过 程 中 具有 的 潜在 价值 挖掘 出 
来 ， 从 而 达到 节约 成 本 、 战 胜 对 手 、 在 市 场 中 求生 存 的 目标 。 大 数据 在 企业 中 的 分 析 包 括 顾 
客 分 析 、 商 品 分 析 、 供 应 链 和 效率 分 析 以 及 其 他 关乎 企业 绩效 方面 的 分 析 。 比 如 ， 电 信和 运营 
商 运 用 大 数据 进行 智能 管理 中 ， 基 于 用 户 、 业 务 及 流量 分 级 的 多 维 管控 机 制 ， 以 及 精准 的 客 
户 分 析 及 营销 ( 如 套餐 适 配 、 离 网 预警 、 广 告 精准 投放 等 ) 。 这 些 应 用 大 多 数 电信 运营 商 早 
已 执行 ， 例 如 中 国电 信 、 西 班 牙 电 信 、 中 国 移动 等 ， 都 已 开展 城市 人 口 流量 模型 等 工作 。 此 
外 ， 电 信 业 通过 审视 自身 的 数据 优势 ， 服 务 公共 社会 的 应 用 逐步 展开 ， 像 智慧 城市 、 利 用 位 
置 和 轨迹 信息 服务 社会 、 为 智慧 城市 提供 海量 数据 预测 服务 等 。 

3. 大 数据 在 政府 中 的 应 用 


大 数据 另外 一 个 重要 的 应 用 领域 是 社会 或 政府 。 今 天 的 城市 面临 着 人 口 、 就 业 和 环境 等 
各 方面 问题 ， rt 用 范畴 。 美 国 等 发 达 国家 的 政府 部 门 在 
开展 大 数据 应 用 方面 起 了 重要 的 表率 作用 ， 例 如 : 美国 能 源 部 、 联 合 国防 部 等 6 个 联邦 政府 
部 门 或 机 构 投 资 了 2 亿美 元 ， 以 开展 大 数据 的 政府 应 用 。 美 国 国防 部 开展 了 与 网 络 安全 相关 的 
若干 大 数据 项 目 ， 进 行情 报 搜集 和 分 析 。 美国 国家 卫生 研究 院 着 手 建 立 健康 与 疾病 相关 的 数 
据 集 、 基 因 组 信息 系统 、 公 众 健康 分 析 系统 以 及 老龄 化 电子 图 书 数据 库 等 医疗 大 数据 系统 。 
国际 上 ， 早 在 2009 年 ， 联 合 国 就 启动 了 全 球 脉搏 项 目 ， 跟 踪 和 监控 全 球 各 地 区 的 社会 经 济 数 
据 ， 采 用 大 数据 技术 进行 分 析 处 理 ， 以 便 更 加 及 时 地 对 危机 做 出 反应 。 日 本 2012 年 开始 对 大 
数据 进行 专项 调查 ， 并 将 调查 结果 发 布 在 《信息 通信 白皮书》 里 。2013 年 ， 日 本 总 务 省 对 大 
数据 的 发 展现 状 进一步 深入 开展 宏观 和 微观 层面 的 调查 ， 针 对 大 数据 的 生成 、 流 通 与 存储 环 
节 进 行 宏观 的 定量 研究 。 在 我 国 ， 大 数据 尚未 上 升 到 战略 高 度 ， 应 用 案例 也 较 少 ， 在 宏观 大 
数据 研究 方面 吸 待 加 强 。 

4. 大 数据 在 其 他 领域 中 的 应 用 


大 数据 不 仅 在 互联 网 、 企 业 、 政 府中 得 到 了 广泛 的 应 用 ， 随 着 大 数据 的 发 展 ， 大 数据 在 
医疗 与 生命 科学 研究 、 能 源 和 司法 执法 等 领域 都 得 到 了 广泛 的 应 用 并 不 断 扩展 。 比 如 : 一 个 
基因 组 序列 文件 大 小 约 为 730MB， 一 个 CT 图 像 大 约 为 1530MB 的 数据 ， 一 个 标准 的 病理 图 则 接 
近 5GB。2010 年 ， 国 家 公布 的 “十 二 五 ”规划 中 提出 要 重点 建设 国家 级 、 省 级 和 地 市 级 三 级 
卫生 信息 平台 ,以 及 建设 电子 病历 和 电子 档案 两 个 基础 数据 库 等 。 此 外 ,各 级 医院 也 将 加 大 
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在 数据 中 心 ，IT 外 包 等 领域 的 投入 。 随 着 医疗 信息 数据 的 增长 速度 成 几何 倍数 不 断 发 展 ， 医 
院 的 信息 存储 越 来 越 重要 ， 医 疗 信息 中 心 也 将 从 关注 传统 计算 领域 转移 到 更 加 注重 存储 领域 
上 来 。 

从 2013 年 开始 ， 电 力 、 石 油 等 能 源 细 分 行业 纷纷 拉 开 了 大 数据 开发 应 用 的 序幕 。 大 数据 
技术 强调 的 是 从 海量 数据 中 快速 有 效 地 获取 有 价值 信息 的 能 力 ， 如 何 从 海量 数据 中 高 效 地 获 
取 数 据 ， 有 效 地 深加工 并 最 终 应 用 到 商业 决策 中 是 能 源 企业 涉足 大 数据 的 目的 。 利 用 大 数据 
可 对 业务 进行 分 析 ， 加工 成 有 用 的 数据 ， 进 而 全 面 掌控 企业 业务 。 如 国 网 信 通 公司 在 北京 亦 
庄 的 数据 中 心中 ， 就 设 有 10200 个 传感器 。 这 些 传感器 及 时 采集 数据 ， 并 被 存储 到 云 盘 进行 
分 析 和 利用 。 在 大 数据 时 代 背 景 下 ， 创 新 司法 统计 信息 的 收集 与 管理 模式 ， 深 化 司法 统计 数 
据 的 开发 利用 ， 对 于 更 好 地 服务 于 审判 管理 ， 在 更 高 的 起 点 上 推动 人 民法 院 工作 实现 新 的 发 
展 ， 具 有 重要 意义 。 


和 1.4 大 数据 热点 问题 与 发 展 趋势 介绍 


1.4.1 大 数据 的 热点 问题 


目前 ， 大 数据 时 代 已 经 到 来 ， 不 管 是 在 学 术 界 还 是 在 产业 界 ， 人 们 都 希望 通过 对 大 数据 
热点 问题 的 研究 ， 充 分 认识 和 了 解 大 数据 将 要 面 对 的 关键 性 挑战 和 具有 的 独特 价值 ， 以 便 更 
好 地 把 握 投入 方向 ， 这 对 学 术 界 、 产 业界 以 及 用 户 具 有 指导 价值 。 

1. 数据 科学 与 大 数据 的 学 科 边 界 

迄今 为 止 ， 什 么 是 大 数据 ， 在 产业 界 和 学 术 界 并 没有 形成 一 个 公认 的 定义 ， 对 大 数据 
的 内 涵 与 外 延 也 缺乏 清晰 的 说 明 。 另 外 ， 大 数据 是 否 就 意味 着 全 数据 ， 还 有 待 进一步 讨论 与 
澄清 。 最 后 ， 还 需要 为 动态 、 高 维和 复杂 的 大 数据 建立 形式 化 、 结 构 化 的 描述 方法 ， 进 而 在 
此 基础 上 发 展 大 数据 处 理 技术 。 而 后 者 关注 的 是 数据 界 与 物理 界 、 人 类 社会 之 间 的 关联 与 差 
异 ， 探讨 是 否 存在 独立 于 应 用 领域 的 数据 科学 。 如 果 存 在 数据 科学 ， 其 学 科 问 题 的 分 类 体系 
又 是 什么 ? 目前 已 有 的 共识 是 ， 大 数据 的 复杂 性 主要 来 自 数据 之 间 的 复杂 联系 。 另 外 ， 新 型 
学 习 理 论 与 认 知 理论 等 也 应 当 是 数据 科学 的 重要 组 成 部 分 。 

2. 数据 计算 的 基本 模式 与 范式 

大 数据 的 诸多 突出 特性 使 得 传统 的 数据 分 析 、 数 据 挖掘 和 数据 处 理 的 方式 方法 都 不 再 适 
用 。 因 此 ， 面 对 大 数据 ， 需 要 有 数据 密集 型 计算 的 基本 模式 和 新 型 的 计算 范式 ， 需 要 提出 数 
据 计 算 的 效率 评估 方法 以 及 研究 数据 计算 复杂 性 等 基本 理论 。 由 于 数据 体 量 太 大 ， 甚 至 有 的 
数据 本 身 就 以 分 布 式 的 形式 存在 ， 难 以 集中 起 来 处 理 ， 因 此 对 于 大 数据 的 计算 需要 从 中 心 化 
的 、 自 顶 向 下 的 模式 转 为 去 中 心 化 的 、 自 底 向 上 、 自 组 织 的 计算 模式 。 另 外 ， 面 对 大 数据 将 
形成 基于 数据 的 智能 ， 我 们 可 能 需要 寻找 类 似 “ 数 据 的 体 量 + 简单 的 逻辑 ”的 方法 去 解决 复 
杂 问 题 。 
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3. 大 数据 特性 与 数据 态 


这 一 问题 综合 了 三 个 问题 ， 即 大 数据 的 关系 维 复 杂 性 、 大 数据 的 空间 维 复杂 性 和 大 数据 
的 时 间 维 复杂 性 问题 。 大 数据 往往 由 大 量 数据 源头 产生 ， 而 且 常 包含 图 像 、 视 频 、 音 频 、 数 
据 流 、 文 本 与 网 页 等 不 同 的 数据 格式 ， 因 此 其 模 态 是 多 种 多 样 的 。 主 要 来 源 于 多 模 态 的 大 数 
据 之 间 存 在 着 错综复杂 的 关联 关系 ， 这 种 异 质 的 关联 关系 有 时 还 动态 变化 ， 互 为 因果 ， 因 此 
导致 其 关联 模式 也 非常 复杂 。 大 数据 的 空间 维 问题 主要 关注 人 、 机 、 物 三 维 世 界 中 大 数据 的 
产生 、 感 知 与 采集 ， 以 及 不 同 粒度 下 数据 的 传输 、 移 动 、 存 储 与 计算 。 男 外 ， 还 需 研究 大 数 
据 在 空间 与 密度 的 非 均 衡 态 对 其 分 析 与 处 理 所 带 来 的 理论 与 技术 的 挑战 。 大 数据 的 时 间 维 问 
题 则 意图 在 时 间 维 度 上 研究 大 数据 的 生命 周期 、 状 态 与 特征 ， 探 索 大 数据 的 流 化 分 析 、 增 量 
式 的 学 习 方法 与 在 线 推荐 。 

4. 大 数据 的 数据 变换 与 价值 提炼 

大 数据 的 数据 变换 与 价值 提炼 即 “ 如 何 将 大 数据 变 小 ”与 “如 何 进行 大 数据 的 价值 提 
炼 ”。 前 者 要 在 不 改变 数据 基本 属性 的 前 提 下 对 数据 进行 清洗 ， 在 尽量 不 损失 价值 的 条 件 下 
减 小 数据 规模 。 为 此 ， 需 要 研究 大 数据 的 抽样 、 去 重 、 过 滤 、 筛 选 、 压 缩 、 索 引 和 提取 元 数 
据 等 数据 变换 方法 ， 直 接 将 大 数据 变 小 ， 这 可 以 看 作 是 大 数据 的 “物理 变化 ”。 后 者 可 看 作 
是 大 数据 的 “化 学 反应 ”， 对 大 数据 的 探索 式 考察 与 可 视 化 将 发 挥 作 用 ， 人 机 的 交互 分 析 可 
以 将 人 的 智慧 融入 这 一 过 程 ， 通 过 群体 智慧 、 社 会 计算 、 认 知 计算 对 数据 的 价值 进行 发 酵 和 
提炼 ， 实 现 从 数据 分 析 到 数据 价值 判定 和 数据 制造 的 价值 飞跃 。 

5. 大 数据 的 安全 和 隐私 问题 

只 要 有 数据 ， 就 必然 存在 数据 泄露 、 数 据 窃取 等 与 安全 、 隐 私有 关 的 问题 。 目 前 ， 大 数 
据 在 收集 、 存 储 以 及 使 用 过 程 中 都 面临 着 重大 的 风险 和 威胁 ， 大 数据 需要 遵守 更 多 、 更 合理 
的 规定 ， 但 是 传统 的 数据 保护 方法 无 法 满足 这 一 要 求 。 因 此 ， 针 对 大 数据 的 安全 与 隐私 保护 
问题 ， 还 有 大 量 的 困难 挑战 豚 需 得 到 解决 。 具 体 挑 战 包括 : 大 数据 计算 伦理 学 、 大 数据 规模 
的 密码 学 、 分 布 式 编程 框架 中 的 安全 计算 、 安 全 的 数据 存储 和 日 志 管理 、 基 于 隐私 和 商业 利 
益 保护 的 数据 挖掘 与 分 析 、 数 据 计算 的 可 信任 度 、 实 施 安 全 / 合 规 监测 、 强 制 的 访问 控制 和 安 
全 通信 、 多 粒度 访问 控制 以 及 数据 来 源 和 数据 通道 等 。 总 体 而 言 ， 当 前 国内 外 针对 大 数据 安 
全 和 隐私 保护 问题 的 研究 还 比较 少 ， 根 据 我 国 的 国情 ， 只 有 通过 技术 手段 与 相关 的 政策 法 规 
相 结合 才能 更 好 地 解决 此 类 问题 。 


6. 大 数据 对 IT 技术 架构 的 挑战 


不 管 是 存储 系统 、 传 输 系统 还 是 计算 系统 ， 大 数据 都 提出 了 很 多 非常 苛刻 的 要 求 ， 况 且 
大 数据 平台 本 身 也 将 是 技术 高 峰 ， 现 有 的 数据 中 心 技术 很 难 实现 大 数据 所 提出 的 技术 需求 。 
譬如 ,数据 的 增长 远 远 超过 了 存储 能 力 的 增长 ， 对 此 目前 需要 解决 的 关键 问题 就 是 设计 出 最 
合理 的 分 层 存储 架构 。 分 布 式 存储 架构 需要 结合 secale-up 式 和 scale-out 式 的 可 扩展 性 ， 因 此 对 
整个 IT 架构 进行 革命 性 地 重 构 势 在 必 行 。 此 外 ， 大 数据 平台 ( 包括 计算 平台 、 传 输 平 台 和 存 
储 平台 等 ) 是 大 数据 技术 链条 中 的 瓶颈 ， 特 别 是 大 数据 的 高 速 传输 ， 需 要 革命 性 的 新 技术 。 
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7. 大 数据 的 应 用 及 产业 链 

大 数据 的 研究 与 应 用 不 是 单一 化 的 ， 应 该 与 领域 知识 相 结 合 ， 特 别 是 在 开展 大 数据 研究 
的 初期 ， 计算 机 领域 的 科技 工作 者 一 定 要 虚心 请 教 各 领域 的 科技 人 员 ， 从 而 真正 了 解 和 熟悉 
各 领域 数据 的 特征 。 根 据 不 同 的 应 用 需求 和 不 同 的 领域 环境 ， 大 数据 的 获取 、 分 析 与 反馈 的 
方式 也 不 尽 相 同 。 为 此 ， 针 对 不 同行 业 与 领域 业务 需求 ， 首 先 需要 展开 业务 特征 与 数据 特征 
的 研究 ， 进 行 大 数据 应 用 分 类 与 技术 需求 分 析 ， 然 后 构建 从 需求 分 析 与 业务 模型 ， 到 数据 奸 
模 、 数 据 采集 和 总 结 反馈 ， 最 后 到 数据 分 析 的 全 生命 周期 应 用 模型 。 其 实 ， 不 同 的 应 用 环境 
和 应 用 目标 代表 了 不 同 的 价值 导向 ， 这 对 于 大 数据 的 价值 密度 有 很 大 的 影响 。 

在 大 数据 产业 链 方面 ， 随 着 大 数据 的 不 断 发 展 ， 很 多 数据 都 不 知道 如 何 运用 ， 于 是 大 量 
数据 服务 公司 产生 了 。 我 国 已 经 形成 了 大 数据 的 “生产 与 集聚 层 一 组 织 与 管理 层 一 分 析 
与 发 现 层 一 应 用 与 服务 层 ” 产 业 链 。 

8. 大 数据 的 生态 环境 问题 

大 数据 被 喻 为 21 世 纪 的 “新 石油 ”， 它 是 一 种 宝贵 的 战略 资源 ， 因 此 对 大 数据 的 共享 
与 管理 无 疑 是 其 生态 环境 的 重要 部 分 。 所 有 权 是 大 数据 共享 与 管理 的 基础 ， 而 所 有 权 既 是 技 
术 问题 ， 也 是 法 律 问题 。 因 此 ， 数 据 也 是 拥有 权益 的 ， 对 它 的 权益 需要 进行 具体 认定 并 进行 
保护 ， 进 而 在 保护 好 多 方 利益 的 基础 上 解决 数据 共享 问题 。 为 此 ， 可 能 会 遇 到 很 多 的 困难 ， 
比如 人 们 对 法 律 或 信誉 的 顾虑 ， 保 护 竞争 力 的 需要 ， 以 及 数据 存储 的 位 置 和 方式 不 利于 数据 
的 访问 和 传输 等 。 此 外 ， 生 态 环境 问题 受到 政治 、 经 济 、 社 会 、 法 律 、 科 学 等 因素 的 交叉 影 
响 ， 因 为 大 数据 将 对 国家 治理 模式 、 组 织 和 业务 流程 、 企 业 的 决策 、 个 人 生活 方式 都 将 产生 
巨大 的 影响 ， 因 此 这 种 影响 模式 值得 深入 研究 。 


1.4.2 大 数据 的 发 展 趋势 


1. 大 数据 从 概念 化 走向 价值 化 

一 方面 ， 大 数据 将 向 更 多 新 领域 扩张 ， 也 会 出 现 更 多 数据 驱动 的 商业 模式 ， 更 具体 点 
说 ， 互 联网 金融 等 将 会 成 为 大 数据 应 用 的 新 的 商业 模式 ， 特 别 是 基于 海量 数据 的 信用 体系 和 
风险 控制 ， 一 定 会 冒 出 来 。 另 一 方面 ， 资 本 高 度 关注 大 数据 领域 ， 相 关 的 融资 、 并 购 与 IPO 
纷纷 出 现 ， 因 此 大 数据 从 概念 走向 价值 化 成 为 大 数据 发 展 趋势 中 的 最 大 趋势 。 

2. 大 数据 安全 与 隐私 越 来 越 重要 

大 数据 安全 不 容 忽视 ， 这 是 因为 大 数据 更 容易 成 为 网 络 中 的 攻击 目标 ; 对 存储 的 物理 
安全 性 要 求 也 会 越 来 越 高 ， 大 数据 分 析 技术 更 容易 被 黑客 利用 ; 大 数据 引起 了 更 多 不 易 被 追 
踪 和 防范 的 犯罪 手段 。 个 人 隐私 的 问题 也 更 为 严重 。 个 人 的 隐私 越 来 越 多 地 融入 各 种 大 数据 
中 ,大 数据 拥有 者 掌控 了 越 来 越 多 人 的 越 来 越 丰富 的 信息 。 同 时 ， 有 偿 的 隐私 保护 服务 会 被 
大 众 所 接受 。 

3. 大 数据 分 析 与 可 视 化 成 为 热点 

大 数据 规模 大 ， 难 理解 ， 分 析 过 程 离 不 开 可 视 化 技术 ， 可 视 化 将 贯穿 于 大 数据 分 析 与 
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结果 展示 的 全 过 程 ， 可 视 化 已 经 成 为 很 多 领域 研究 的 议题 。 有 了 大 数据 以 后 ， 大 规模 、 多 角 
度 、 多 视角 与 多 手段 的 数据 可 视 化 ， 还 有 实时 处 理 分 析 和 大 数据 的 处 理 方法 贯穿 了 整个 数据 
分 析 和 数据 展示 的 过 程 。 

4. 数据 的 商品 化 和 数据 共享 的 联盟 化 

数据 共享 联盟 有 望 逐步 壮大 ， 成 为 产业 、 科 研 和 学 术 界 一 个 环 环 相 扣 的 支撑 环节 和 产业 
发 展 的 核心 环节 。 另 外 ,由 于 数据 变 成 资源 ， 成 为 有 价值 的 东西 ， 数 据 私 有 化 和 独占 问题 就 
是 客观 存在 的 ， 成 为 关注 的 焦点 。 数 据 产权 界定 问题 日 益 突出 ， 在 数据 权 属 确定 的 情况 下 ， 
数据 商品 化 将 成 为 必然 选择 。 

5. 深度 学 习 与 大 数据 性 能 成 为 支撑 性 的 技术 

在 大 数据 时 代 ， 依 靠 高 性 能 计算 的 支持 ， 深 度 学 习 将 会 成 为 大 数据 智能 分 析 的 核心 技术 
之 一 。 基 于 海量 智能 的 技术 成 为 发 展 的 热点 ， 它 利用 群体 智能 和 众 包 计 算 支 撑 大 数据 分 析 和 
应 用 ， 依 赖 于 对 捕捉 到 的 数据 的 分 析 来 做 判断 和 决策 ， 这 将 成 为 将 要 兴起 的 下 一 个 浪潮 。 以 
分 布 式 计算 来 支撑 大 数据 分 析 是 必 经 之 路 。 在 很 多 大 数据 的 应 用 场合 ， 基 于 物理 资源 的 分 散 
式 应 用 会 有 更 多 的 应 用 场景 。 

6. 数据 科学 的 兴 

数据 科学 作为 一 个 与 大 数据 相关 的 新 兴学 科 出 现 ， 各 种 大 数据 分 析 系 统 各 有 所 长 ， 在 不 
同类 型 分 析 查 询 下 ， 表 现 出 不 同 的 性 能 差异 ,使 大 家 对 数据 科学 兴起 有 了 更 具体 的 认识 。 目 
前 ， 许 多 研究 机 构 、 学 术 团 体 和 高 校 都 在 进行 对 大 数据 的 研究 以 及 大 数据 方面 的 学 科 建 设 和 
实验 室 建设 ,使 得 大 数据 成 为 一 门 真正 的 数据 科学 。 

7. 大 数据 产业 成 为 一 种 战略 性 产业 


早 在 2011 年 ， 全 球 知名 咨询 公司 麦肯锡 发 布 了 《大 数据 : 创新 、 竞 争 和 生产 力 的 下 一 
个 前 沿 领域 》 的 报告 ， 预 示 了 大 数据 产业 将 会 成 为 本 世纪 具有 决定 性 的 产业 。 发 展 大 数据 产 
业 ， 利 用 大 数据 分 析 提 高 国家 经 济 决策 和 社会 服务 能 力 ， 保 障 国家 安全 成 为 各 国 的 重要 战 
略 。 除 大 企业 成 为 大 数据 最 活跃 的 群体 外 ,一些 拥有 大 数据 的 政府 部 门 也 纷纷 利用 积累 的 数 
据 ， 采 用 大 数据 技术 进行 分 析 ， 产 生 了 突出 的 效果 。 

8. 大 数据 生态 环境 逐步 完善 


虽然 大 数据 生态 环境 目前 还 没有 完善 到 令 人 满意 的 程度 ， 但 是 它 正在 逐步 完善 。 一 方 
面 ， 开 源 逐 步 成 为 主流 ; 另 一 方面 ， 大 数据 、 云 计算 、 物 联网 相互 交融 ， 开 展 大 数据 教育 、 
计算 机 类 相关 的 教育 活动 等 ， 其 中 大 数据 教育 更 多 是 对 人 才 方 面 的 教育 。 

9. 大 数据 处 理 架构 的 多 样 化 模式 并 存 

在 大 数据 处 理 方面 ， Hadoop/MapReduce 框 架 一 统 天 下 的 模式 已 被 打破 ， 实时 流 计 算 、 分 
布 式 内 存 计算 、 图 计算 框架 等 并 存 ; 在 大 数据 存储 与 管理 方面 ， 大 数据 的 4V 特 征 放大 了 以 前 
海量 数据 的 存储 与 管理 的 挑战 ; 在 性 能 提升 方面 ， 内 存 价 格 不 断 降低 ， 使 内 存 计 算 将 成 为 解 
决 实时 性 大 数据 处 理 问题 的 主要 手段 。 
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上 1.5 练习 


1. 大 数据 的 特征 是 什么 ? 

2. 大 数据 的 潜在 价值 是 什么 ? 

3. 在 大 数据 时 代 这 个 大 背景 下 ， 大 数据 将 面临 什么 挑战 ? 
4. 商业 智能 是 什么 ? 

5. 商业 智能 和 大 数据 是 什么 样 的 关系 ? 

6. 大 数据 的 技术 架构 体系 是 什么 ? 

7. 大 数据 在 未 来 有 什么 样 的 发 展 趋势 ? 
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第 2 章 


数据 组 织 存 储 技术 


随 着 大 数据 时 代 的 到 来 ， 系 统 中 需要 存储 的 数据 越 来 越 多 ， 数 据 也 呈现 出 越 来 越 复杂 的 
结构 。 如 何 对 海量 数据 进行 组 织 、 存 储 变 得 尤为 重要 ， 其 中 存储 技术 是 关键 。 本 章 主 要 从 数 
据 存储 的 相关 概念 、 数 据 存储 技术 的 研究 现状 、 海 量 数据 存储 的 关键 技术 以 及 数据 仓库 等 方 
面 对 数据 的 组 织 与 存储 技术 进行 详细 地 介绍 


上 2.1 数据 存储 概述 


大 数据 应 用 的 爆发 性 增长 ， 直 接 推动 了 存储 、 网 络 以 及 计算 技术 的 发 展 。 随 着 经 济 全 球 
化 的 不 断 发 展 ， 国 际 性 的 大 型 企业 正在 不 断 涌 现 ， 来 自 全 球 各 地 数 以 万 计 的 用 户 产 生 了 数 以 
万 计 的 业务 数据 ， 这 些 数据 需要 存放 在 拥有 数 千 台 机 器 的 大 规模 并 行 系统 上 。 同 时 ， 大 数据 
也 出 现在 日 常生 活 和 科学 研究 等 各 个 领域 ， 数 据 的 持续 增长 使 人 们 不 得 不 重新 考虑 数据 的 存 
储 和 管理 ， 海 量 数据 存储 对 大 数据 时 代 至 关 重 要 。 

数据 存储 是 数据 流 在 加 工 过 程 中 产生 的 临时 文件 或 加 工 过 程 中 需要 查找 的 信息 。 数 据 以 
某 种 格式 记录 在 计算 机 内 部 或 外 部 存储 介质 上 。 数据 存储 的 命名 需要 反映 出 信息 特征 的 组 成 
含义 。 数 据 流 要 表现 出 动态 数据 的 特征 ， 反 映 的 是 系统 中 流动 的 数据 ; 数据 存储 要 表现 出 静 
态 数 据 的 特征 ， 反 映 的 是 系统 中 静止 的 数据 。 


2.1.1 数据 存储 介质 


数据 存储 介质 主要 包括 磁带 、 光 盘 、 硬 盘 三 大 类 ， 在 这 三 种 存储 介质 的 基础 上 分 别 构成 
了 磁带 机 、 光 盘 库 、 磁 盘 阵 列 三 种 主要 的 存储 设备 。 未 来 高 速 海量 数据 存储 的 重要 发 展 趋势 
是 采用 固态 存储 和 全 息 存 储 。 磁 带 机 以 其 廉价 的 优势 因而 应 用 广泛 ; 光盘 库 适用 于 保存 多 媒 
体 数据 和 联机 检索 ， 应 用 也 越 来 越 普遍 ; 磁盘 阵列 具有 较 高 的 存 取 速 度 和 数据 可 靠 性 特点 ， 
成 为 目前 高 速 海量 数据 存储 的 主要 方式 。 

磁盘 阵列 ( RAID，Redundant Array of Independent Disks ) 是 元 余 的 独立 磁盘 阵列 的 英文 
缩写 。 元 余 的 目的 是 为 了 补救 错失 、 保 证 可 靠 性 ， 独 立 是 指 阵列 不 在 主机 内 而 自 成 一 个 系 
统 。 一 般 将 RAID 分 为 不 同 的 级 别 ， 主 要 包含 RAID0~RAID50 等 数 个 规范 ， 每 个 规范 的 侧重 点 
各 不 相同 。 最 常用 的 级 别 是 RAID0 一 RAID6。 磁 盘 阵 列 通过 在 多 个 磁盘 上 同时 存储 和 读 取 数 
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据 来 大 幅度 提高 存储 系统 的 数据 吞吐 量 。 磁 盘 列 阵 是 由 很 多 价格 便宜 的 磁盘 组 合成 的 一 个 容 
量 巨 大 的 磁盘 组 ， 利 用 单个 磁盘 提供 数据 所 产生 的 加 成 效果 来 提升 整个 磁盘 的 系统 效果 。 通 
过 控制 和 管理 阵列 控制 器 ， 磁 盘 阵 列 系统 能 够 将 几 个 、 几 十 个 甚至 几 百 个 磁盘 连接 成 一 个 大 
磁盘 ， 使 总 容量 高 达 几 百 甚至 上 千 兆 ， 并 且 其 速率 也 可 以 达到 单个 磁盘 驱动 器 的 几 倍 、 几 十 
倍 甚至 上 百倍 。 磁 盘 阵 列 技术 还 有 一 个 特点 就 是 安全 。 它 通过 数据 校 验 来 提供 容错 功能 ， 从 
而 提供 了 更 高 的 安全 性 。 大 多 数 RAID 模 式 中 的 相互 校 验 /恢复 的 措施 都 较为 完备 ， 有 些 是 直 
接 相 互 的 镜像 备份 ， 用 户 数据 一 旦 发 生 损坏 ， 利 用 备份 的 信息 即 可 使 损坏 的 数据 得 以 恢复 ， 
从 而 使 RAID 系 统 的 容错 度 、 系 统 的 稳定 元 余 性 以 及 用 户 数据 的 安全 性 都 有 很 大 提高 。 


2.1.2 ”数据 存储 模式 
数据 存储 的 方式 主要 有 DAS、NAS、SAN 和 IP 存 储 。 
1. DAS 存 储 方式 


DAS ( Direct Attached Storage， 直 接连 接 存 储 ) 是 利用 连接 电缆 ， 将 外 置 存 储 设 备 连接 到 
一 台 主 机 上 。 主 机 与 存储 设备 间 有 多 种 连接 方式 : SCSI， 小 型 计算 机 系统 接口 ， ATA， 先 进 
技术 附加 设备 ;SATA ， 串 行 ATA; FC， 光 纤 通 道 。 在 实际 应 用 中 ，SCSI 方 式 使 用 最 多 ， 随 着 
服务 器 CPU 的 处 理 能 力 越 来 越 强 ， 硬 盘 的 存储 空间 越 来 越 大 ， 组 成 阵列 的 硬盘 数量 也 越 来 越 
多 ，SCSI 通 道成 了 IO 瓶颈 。 传 统 SCSI 所 提供 的 存储 服务 有 很 多 限制 ， 其 中 最 关键 的 是 : 与 服 
务 器 连接 距离 有 限 ; 可 连接 的 服务 器 数量 有 限 ; SCSI 盘 阵 受 固化 的 控制 器 限制 以 至 无 法 进行 
在 线 扩容 。 在 直接 连接 式 存 储 中 ， 由 主机 操作 系统 对 文件 和 数据 进行 管理 ， 因 为 主机 结构 中 
包括 数据 存储 部 分 。 操 作 系统 在 对 磁盘 数据 的 读 写 与 维护 管理 过 程 中 会 占用 主机 资源 ( 诸如 
CPU、 系 统 1/0 等 ) 。 可 以 看 出 ， 这 种 方式 的 优点 是 ， 磁 盘 读 写 带宽 的 利用 率 高 ， 中 间 环 节 较 
少 ， 购 置 成 本 较 低 ; 其 缺点 是 ,数据 存储 占用 主机 资源 ， 使 主机 的 性 能 受到 较 大 影响 ， 扩 展 
能 力 有 限 ， 同 时 主机 系统 的 软 硬 件 故障 对 存储 数据 的 访问 也 会 直接 造成 影响 。 

2. NAS 存 储 方式 


NAS ( Network Attached Storage， 网 络 附 加 存储 ) 是 能 够 对 不 同 应 用 服务 器 和 主机 进行 访 
问 的 技术 ， 是 一 种 能 够 把 独立 且 分 布 的 数据 整合 为 集中 化 管理 的 、 大 型 的 数据 中 心 的 技术 。 
NAS 采 用 独立 于 服务 器 ， 单 独 为 网 络 数据 存储 而 开发 了 一 种 文件 服务 器 来 连接 所 存储 设备 ， 
自 形成 一 个 网 络 。 这 样 ， 数据 存储 就 不 再 是 服务 器 的 附属 ， 而 是 作为 独立 的 网 络 节点 存在 于 
网 络 中 ， 为 所 有 的 网 络 用 户 共享 。 

NAS 的 存储 方法 是 部 件 级 的 ， 可 以 作为 网 络 的 一 个 节点 存在 ,借助 于 双 绞 网 线 直 接连 接 
到 IP 网 络 上 。NAS 没 有 地 域 限制 ， 具 有 支持 远程 实时 访问 、 备 份 、 操 作 等 特性 ， 这 让 它 更 容 
易 部 署 。 此 外 ，NAS 还 具有 安装 简单 、 容 易 扩 展 、 方 便 维护 、 安 全 可 靠 、 低 成 本 等 特点 。 

NAS 通 信和 是 按照 TCP/IP 协 议 来 进行 的 ， 采用 业界 标准 文件 共享 协议 (如 : NFS、HTTP 和 
CIFS ) 来 实现 共享 数据 传输 方式 为 文件 。 借 助 于 NAS 自 带 的 文件 管理 系统 ， 安 装 在 不 同 操 
作 系 统 ( 如 APPLE 系 统 、Windows 系 统 、Linux 或 UNIX ) 的 客户 机 可 以 使 用 同一 文件 管理 系 
统 ， 使 得 异 构 平台 之 间 的 数据 共享 得 以 真正 地 实现 。 因 此 NAS 存 储 方式 具有 良好 的 异 构 平 台 
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兼容 性 。 
3. SAN 存 储 方式 


SAN (Storage Area Network, 存储 区 域 网 络 ) 是 指 通过 专用 高 速 网 将 一 个 或 多 个 网 络 存 
储 设备 和 服务 器 连接 起 来 的 专用 存储 系统 ， 未 来 的 信息 存储 将 以 SAN 存 储 方式 为 主 。Fibre 
Channel ( FC， 光 纤 信 和 道 ) 协议 是 它 的 核心 技术 ， 该 技术 的 建立 是 为 了 解决 传统 SCSI 传 输 的 距 
离 限制 。SAN 支 持 HIPPI、IP、IPI、ATM 和 SCSI 等 多 种 高 级 协议 ， 是 ANSI 为 信道 WO 接口 和 网 
络 建立 的 一 个 标准 集成 。 为 实现 在 同一 个 物理 连接 上 传送 多 种 协议 ， 光 纤 信 道 协议 将 网 络 和 
设备 的 通讯 协议 与 传输 物理 介质 隔离 开 来 ， 这 也 是 光纤 信道 协议 的 最 大 特性 。 

完全 采用 光纤 连接 是 SAN 技 术 的 一 大 特点 ， 从 而 保证 了 巨大 的 数据 传输 带宽 ， 目 前 其 传 
输 距 离 可 达到 100km， 数 据 传 输 速 度 也 达到 了 4Gbit/s。 一 条 单一 的 FC 环 路 最 大 可 以 承载 126 个 
设备 。 与 传统 技术 相 比 ， 为 使 存储 与 服务 器 分 开 成 为 现实 ，SAN 技 术 将 存储 设备 从 传统 的 以 
太 网 中 隔离 出 来 成 为 独立 的 存储 局 域 网 络 ， 这 也 是 SAN 的 最 大 特点 。 此 外 ,在 SAN 中 实现 容 
量 扩展 、 数 据 迁移 、 远 程 容 灾 数 据 备份 功能 都 比较 方便 。 采 用 SAN 技 术 的 存储 设备 性 能 高 ， 
提高 了 数据 的 可 靠 性 和 安全 性 ， 但 是 其 设备 的 互 操作 性 较 差 ， 构 建 、 管 理 和 维护 成 本 高 ， 而 
且 只 能 提供 存储 空间 共享 而 不 能 提供 异 构 环 境 下 的 文件 共享 。 

4. IP 存 储 


IP 存 储 ( Storage over IP，SoIP ) 是 一 种 替代 光纤 通道 ( FC ) 的 基于 以 太 网 和 IP 存 储 网 的 
技术 ， 它 使 服务 器 可 以 通过 IP 网 络 连接 SCSI 设 备 ， 在 IP 网 络 中 传输 块 级 数据 ， 就 如 同 使 用 本 
地 的 设备 一 样 ， 用 户 不 用 关心 设备 的 地 址 或 位 置 。 网 络 连接 方式 主要 是 IP 和 以 太 网 。 

由 于 IP 存 储 技术 既 有 的 成 熟 性 和 开放 性 ， 使 企业 在 制定 和 实现 “安全 数据 存储 ”的 策 
略 和 方案 时 ， 有 了 更 多 的 选择 空间 。IP 存 储 的 介入 大 大 丰富 了 远程 的 数据 备份 、 数 据 镜像 和 
服务 器 集群 等 领域 的 内 容 。 同 时 ， 在 企业 IT 部 门 设 计 传 统 SAN 方 案 时 必须 要 面 对 的 两 个 问题 
(产品 兼容 性 和 连续 性 ) ， 在 IP 存 储 中 已 经 不 存在 了 。 更 重要 的 是 ， 基 于 IP 存 储 技术 的 新 型 
SAN， 兼 具 传统 SAN 的 高 性 能 和 传统 NAS 的 数据 共享 优势 ， 为 新 的 数据 应 用 方式 提供 了 更 加 先 
进 的 平台 结构 。 

IP 存 储 技术 主要 有 两 个 方面 ， 即 存储 隧道 和 本 地 IP 存 储 。 下 面 简单 地 介绍 一 下 这 两 个 
方面 9 。 

存储 隧道 ( Storage tunneling ) 技术 为 了 解决 两 个 SAN 环 境 的 互联 问题 ， 将 IP 协 议 作 为 连 
接 两 个 异地 光纤 SAN 的 隧道 ， 在 传输 过 程 中 ， 光 纤 通 道 协议 帧 被 包 右 在 IP 数 据 包 中 ， 专 用 设 
备 会 解 开 传输 到 远 端 SAN 后 的 数据 包 ， 将 其 还 原 成 光纤 通道 协议 帧 。 

存储 隧道 技术 提供 的 是 两 个 SAN 之 间 点 到 点 的 连接 通信 ， 因 为 从 功能 上 讲 ， 这 种 技术 与 
光纤 的 专用 连接 技术 类 似 ， 所 以 ， 这 种 存储 隧道 技术 也 被 称 为 黑光 纤 连 接 ( Dark fiber optic 
links ) 。 要 实现 这 种 技术 需要 花费 较 高 的 成 本 ， 其 专用 性 较 强 ， 缺 乏 通用 性 ， 而 且 较 大 的 延 
迟 在 一 定 程度 上 也 影响 了 人 性能。 不过， 可 以 将 现 有 的 城 域 网 和 广域网 充分 利用 是 其 最 大 的 优 
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势 ， 而 这 一 优势 正好 满足 了 宽带 资源 的 需要 ， 使 其 进一步 地 充分 利用 成 为 可 能 。 但 是 ， 另 一 
方面 ， 虽 然 存储 隧道 技术 是 利用 也 网 络 进行 传输 的 ， 但 无 法 充分 利用 IP 网 络 管理 和 控制 机 制 
相对 完善 这 一 优势 。 这 导致 目录 服务 、 流 量 监控 、QoS 等 一 些 很 好 的 管理 控制 机 制 无 法 应 用 
到 存储 隧道 这 种 技术 中 ， 其 主要 原因 在 于 ，IP 网 络 智能 管理 工具 无 法 识别 嵌入 到 IP 数 据 包 中 
的 光纤 通道 协议 帧 。 所 以 ， 企 业 IT 部 门 的 系统 维护 人 员 ， 对 包含 存储 隧道 的 网 络 环境 进行 单 
一 界面 的 统一 集中 化 管理 的 可 能 性 很 小 。 总 体 来 说 ， 存 储 隧道 技术 虽然 借用 了 一 些 IP 网 络 的 
成 熟 性 优势 ， 但 还 是 要 依赖 昂贵 而 复杂 的 光纤 通道 产品 。 

本 地 IP 存 储 ( Native IP-based Storage ) 技术 为 使 网 络 和 存储 无 颖 融合 ， 在 IP 协 议 中 直接 集 
成 了 如 SCSI 和 光纤 通道 等 现 有 的 存储 协议 。 即 在 传统 的 SAN 结 构 中 ,将 光纤 通道 协议 替换 成 
IP 协 议 , 构建 新 型 SAN 系 统 IP-SAN， 使 其 在 技术 上 与 LAN 一 致 ， 而 在 结构 上 与 LAN 隔 离 ， 而 
不 是 在 物理 上 可 以 在 企业 IT 系 统 中 ,合成 一 个 将 存储 网 络 和 传统 的 LAN 整 合 在 一 起 的 网 络 。 

在 这 种 新 型 的 IP-SAN 中 ， 用 户 可 以 直接 把 以 往 用 户 在 IP 网 络 上 获得 的 维护 经 验 、 技 巧 应 
用 到 IP-SAN 上 ， 不仅 能 够 保证 性 能 ， 又 有 效 地 降低 了 成 本 。 借 助 于 随处 可 见 的 耳 网 络 工具 ， 
IP-SAN 可 以 方便 轻松 地 进行 网 络 维护 。 此 外 ， 与 光纤 技术 培训 相 比 ， 维 护 人 员 的 培训 工作 也 
简单 快捷 许多 。 

本 地 IP 存 储 技术 还 具有 非常 明显 的 优势 。 一 方面 ， 在 本 地 IP 存 储 技术 中 ,用 户 接触 到 的 
是 诸如 卫 协 议和 以 太 网 这 样 比较 熟悉 的 技术 内 容 ， 并 且 ， 各 种 IP 通 用 设备 使 得 用 户 的 选择 空 
间 变 得 非常 广 。 实 际 上 ， 充 分 利用 现 有 设备 是 本 地 IP 存 储 技术 的 设计 目标 之 一 。 因 此 ， 可 以 
在 IP-SAN 中 充分 利用 传统 的 SCSI 存 储 设备 和 光纤 存储 设备 。 男 一 方面 ， 本 地 IP 存 储 技术 所 具 
备 的 一 体 化 的 管理 界面 ， 也 可 以 完全 整合 IP-SAN 与 IP 网 络 。 

在 IP-SAN 中 ， 只 要 是 主机 和 存储 系统 都 能 提供 标准 接口 ， 无 论 哪 一 位 置 的 数据 都 可 由 任 
意 位 置 的 主机 进行 访问 ， 不管 是 在 相隔 几米 的 同一 机 房 中 ， 还 是 在 相距 数 千 米 外 的 异地 ， 这 
使 得 本 地 存储 和 远程 存储 的 界限 更 加 模糊 。 此 外 ， 本 地 IP 存 储 技术 的 访问 方式 既 可 以 与 NAS 
结构 中 的 通过 NFS 、CIFS 等 共享 协议 访问 类 似 ， 也 可 以 与 本 地 连接 和 传统 SAN 中 的 通过 本 地 
设备 级 访问 类 似 ?。 


2.1.3 大 数据 存储 存在 的 问题 


随 着 结构 化 数据 和 非 结构 化 数据 数量 的 不 断 增 长 ， 以 及 分 析 数 据 来 源 的 多 样 化 ， 之 前 的 
存储 系统 设计 已 经 无 法 满足 大 数据 应 用 的 需求 。 对 于 大 数据 的 存储 ， 存 在 以 下 几 个 不 容 忽视 
的 问题 。 

1. 容量 

大 数据 时 代 存在 的 第 一 个 问题 就 是 “大 容量 ”。“ 大 容量 ”通常 指 的 是 可 达 PB 级 的 数据 
规模 ， 因 此 ， 海 量 数据 存储 系统 的 扩展 能 力也 要 得 到 相应 等 级 的 提升 ， 同时， 其 扩展 还 必须 
简便 ， 为 此 ， 通 过 增加 磁盘 柜 或 模块 来 增加 存储 容量 ， 这 样 可 以 不 需要 停机 。 在 解决 容量 问题 
上 ， 不 得 不 提 及 LSI 公 司 的 全 新 Nytro 智 能 化 闪存 解决 方案 ， 采 用 这 种 方案 ， 客 户 可 以 将 数据 库 
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有 务 处 理性 能 提高 30 倍 ， 并 且 具 有 超过 每 秒 4GB 的 持续 吞吐 能 力 ， 非 常 适合 于 大 数据 分 析 。 
2. 延迟 


“大 数据 ”的 应 用 不 可 避免 地 存在 着 实时 性 问题 ， 尤 其 是 涉及 到 网 上 交易 或 金融 类 的 应 
用 。“ 大 数据 ”应 用 环境 通常 像 HPC ( 高 性 能 计算 ) 那样 需要 较 高 的 IOPS 性 能 。 正 如 改变 了 
传统 IT 环境 一 样 ， 服 务 器 虚拟 化 的 普及 也 对 高 IOPS 提 出 了 需求 。 为 了 迎接 这 些 挑战 ， 各 种 模 
式 的 固态 存储 设备 应 运 而 生 ， 小 到 简单 的 在 服务 器 内 用 做 高 速 缓存 的 产品 ， 大 到 全 固态 介质 
可 扩展 存储 系统 。 通 过 高 性 能 闪存 存储 ， 自 动 、 智 能 地 对 热点 数据 进行 读 / 写 ， 高 速 缓存 的 系 
列 产品 如 LSI Nytro 都 在 鞍 勃 发 展 。 

3. 安全 

像 金融 数据 、 医 疗 信息 以 及 政府 情报 等 这 些 特殊 行业 的 应 用 ， 都 有 自己 的 安全 标准 和 保 
密 性 需求 。 对 IT 管理 者 来 说 ， 这 些 都 是 必须 遵从 的 。 但 是 ， 在 过 去 没有 需要 多 类 数据 相互 参 
考 的 情况 ， 而 现在 大 数据 的 分 析 往 往 需要 对 多 种 数据 混合 访问 ， 这 就 催生 出 了 一 些 新 的 、 需 
要 考虑 安全 性 的 问题 。 此 处 不 得 不 提 及 利用 DuraClass™ 技 术 的 LSI SandForceR 闪 存 处 理 器 ， 它 
实现 了 企业 级 的 闪存 性 能 和 可 靠 性 ， 实 现 了 简单 、 透 明 的 应 用 加 速 ， 既 安全 又 方便 。 

4. 成 本 

成 本 控制 是 正 处 于 大 数据 环境 下 的 企业 的 关键 问题 ， 只 有 让 每 一 台 设 备 都 实现 更 高 的 
“效率 ”， 同 时 减少 昂贵 的 部 件 ， 才 能 控制 住 成 本 。 目 前 ， 进 入 主 存储 市 场 的 重复 数据 删 
除 、 多 数据 类 型 处 理 等 技术 ， 都 可 为 大 数据 存储 应 用 带 来 更 大 的 价值 ， 提 升 存储 效率 。 在 数 
据 量 不 断 增长 的 环境 中 ， 通 过 减少 后 端 存储 的 消耗 ( 例如 LSI 推 出 的 Syncro "MX-B 机 架 服务 器 
启动 盘 设 备 ) ， 可 以 为 企业 减少 成 本 ， 即 使 只 降低 了 几 个 百分点 ,这样 的 服务 器 也 能 够 获得 
明显 的 投资 回报 。 现 今 ， 数据 中 心 使 用 的 基于 传统 引导 方式 的 驱动 器 不 仅 故 障 率 高 ， 而 且 具 
有 较 高 的 维修 和 更 换 成 本 。 如 果 用 Syncro™MMX-B 机 架 服务 器 取代 数据 中 心 的 独立 服务 器 引导 
驱动 器 ， 则 其 可 靠 性 能 提升 高 达 100 倍 。 并 且 由 于 对 主机 系统 是 透明 的 ， 它 能 为 每 一 个 附加 服 
务 器 提供 惟一 的 引导 镜像 ， 简 化 了 系统 管理 ， 提 升 了 可 靠 性 ， 并 且 节 电 60%， 做 到 了 真正 的 
成 本 节省 。Hadoop 通 常 以 集群 的 方式 运行 在 廉价 服务 器 上 ， 也 可 以 有 效 控制 海量 数据 处 理 和 
存储 的 成 本 

5. 数据 的 累积 


大 数据 应 用 大 都 会 涉及 法 规 遵从 问题 ， 这 些 法 规 通常 要 求 数据 保存 几 年 或 者 几 十 年 。 例 
如 为 了 保证 患者 的 生命 安全 ， 医 疗 信息 通常 会 被 保存 不 少 于 15 年 ， 财 务 信息 通常 需要 保存 7 
年 。 因 为 对 数据 的 分 析 大 都 是 基于 时 间 段 进行 的 ， 任 何 数据 都 是 历史 记录 的 一 部 分 ， 所 以 ， 
有 些 大 数据 的 存储 希望 能 被 保存 得 更 久 一 点 。 数 据 被 保存 的 时 间 越 长 ， 数 据 积累 的 就 越 多 。 
要 实现 数据 的 长 期 保存 ， 就 要 求 大 数据 存储 系统 具有 能 够 持续 进行 数据 一 致 性 检测 的 功能 ， 
以 及 其 他 保证 长 期 高 可 用 的 特性 ， 同 时 还 要 实现 直接 在 原 位 进行 数据 更 新 的 功能 。 

6. 灵活 性 

通常 大 数据 存储 系统 的 基础 设施 规模 都 很 大 ， 为 了 保证 存储 系统 的 灵活 性 ， 使 其 能 够 随 
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着 应 用 分 析 软 件 一 起 扩容 及 扩展 ， 必 须 经 过 详细 设计 。 由 于 在 大 数据 存储 环境 中 ， 数 据 会 同 
时 保存 在 多 个 部 署 站 点 上 ， 因 此 ， 没 有 必要 进行 数据 迁移 。 一 个 大 型 的 数据 存储 基础 设施 必须 
能 够 适应 各 种 不 同 的 数据 场景 与 应 用 类 型 ， 因 为 ， 它 一 旦 开始 投入 使 用 ， 就 难以 进行 调整 了 。 

7. 应 用 感知 

目前 ， 有 些 大 数据 用 户 已 经 在 开发 一 些 针 对 应 用 的 基础 设施 ， 例 如 针对 政府 项 目 开发 的 
系统 、 大 型 互联 网 服务 商 创造 的 专用 服务 器 等 。 应 用 感知 技术 在 主流 存储 系统 领域 的 应 用 越 
来 越 普 遍 ， 它 是 改善 系统 效率 和 性 能 的 重要 手段 。 因 此 ， 应 用 感知 技术 也 应 该 在 大 数据 存储 
环境 中 使 用 。 


8. 针对 小 用 户 


在 大 数据 环境 下 ， 不 仅仅 是 一 些 特殊 的 大 型 用 户 群体 依赖 大 数据 ， 作 为 一 种 商业 需求 ， 
在 不 久 的 将 来 ， 小 型 企业 也 一 样 会 应 用 到 大 数据 。 因 此 ， 为 了 吸引 那些 对 成 本 比较 敏感 的 小 
用 户 , 一 些 存储 厂商 已 经 在 开发 小 型 的 大 数据 存储 系统 了 。 


上 2.2 ”数据 存储 技术 研究 现状 


目前 ,传统 关系 型 数据 库 仍 然 是 大 部 分 互联 网 应 用 数据 存储 管理 的 主要 选择 ， 对 数据 的 
分 析 处 理 则 通过 编写 SQL 语 句 或 MPI 程 序 来 完成 。 在 用 户 和 数据 规模 都 相对 较 小 的 情况 下 ， 
传统 数据 库 系统 尚 可 以 高 效 运行 。 但 是 ， 在 用 户 数量 、 存 储 管理 的 数据 量 都 不 断 增加 的 情况 
下 ， 如 何 应 对 更 大 规模 的 数据 和 满足 更 高 的 访问 量 ， 是 许多 热门 的 互联 网 应 用 在 扩展 存储 系 
统 时 都 会 遇 到 的 问题 。 


2.2.1 传统 关系 型 数据 库 


在 数据 存储 管理 发 展 史上 ， 传 统 关系 型 数据 库 是 一 座 重 要 的 里 程 碑 。 随 着 互联 网 时 代 
的 到 来 ， 之 前 主要 集中 在 金融 、 证 券 等 商务 领域 的 数据 存储 管理 应 用 模式 已 经 不 适用 了 -。 金 
融 、 证 券 等 商务 领域 的 数据 处 理 对 数据 查询 分 析 能 力 的 便捷 性 、 按 照 严格 规则 处 理事 务 能 力 
的 速度 、 多 用 户 访问 的 并 发 性 以 及 保证 数据 的 安全 性 有 较 高 要 求 。 正 是 针对 这 些 要 求 ， 传 统 
关系 型 数据 库 的 设计 具有 这 样 一 些 特点 : 数据 组 织 形式 结构 化 、 一 致 性 模型 严格 、 查 询 语言 
简单 便捷 、 数 据 分 析 能 力 强 大 以 及 程序 与 数据 独立 性 较 高 。 也 正 是 由 于 这 些 优点 ， 传 统 关系 
型 数据 库 得 到 了 广泛 的 应 用 。 

随 着 互联 网 时 代 的 到 来 ,需要 处 理 的 数据 已 经 远 远 超出 了 关系 型 数据 库 的 管理 范畴 ， 各 
种 非 结构 化 数据 ( 包括 博客 、 标 签 、 电 子 邮 件 等 超 文 本 以 及 图 片 、 视 频 与 音频 等 ) 逐渐 成 为 
需要 存储 和 处 理 的 海量 数据 的 重要 组 成 部 分 。 互 联网 数据 快速 访问 ， 大 规模 数据 分 析 的 需求 
在 关系 型 数据 库 中 已 经 不 能 得 到 满足 。 主 要 表现 在 以 下 几 个 方面 。 

1. 应 用 场景 局 限 


互联 网 应 用 主要 面向 的 是 半 结 构 化 和 非 结构 化 数据 ， 这 类 应 用 与 传统 的 金融 、 经 济 等 应 
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用 不 同 ， 它 们 大 多 没有 事务 特性 ， 不 要 求 保证 严格 的 一 致 性 ， 这 本 身 就 与 传统 关系 型 数据 库 
的 设计 初衷 不 相同 。 虽 然 传 统 的 数据 库 厂商 也 根据 海量 数据 应 用 的 特点 针对 性 地 提出 了 一 系 
列 改进 方案 , 但 是 传统 数据 库 在 应 对 互联 网 海量 数据 存储 效果 上 并 不 理想 ， 因 为 这 些 解 决 方 
案 并 没有 真正 地 从 互联 网 应 用 的 角度 去 设计 。 


2. 快速 访问 海量 数据 的 能 力 被 束缚 


关系 模型 是 一 种 按 内 容 访问 的 模型 ， 它 是 关系 数据 库 的 基础 。 在 传统 的 关系 型 数据 库 
中 ， 行 的 值 由 相应 的 列 的 值 来 定位 。 这 种 访问 模型 会 影响 快速 访问 的 能 力 ， 因 为 在 数据 访问 
过 程 中 引入 了 耗 时 的 输入 输出 。 传 统 的 数据 库 系统 为 了 提高 数据 处 理 能 力 ， 一 般 是 通过 分 区 
技术 (水 平分 区 和 垂直 分 区 ) 来 减少 查询 过 程 中 数据 输入 输出 的 次 数 ， 从 而 缩短 响应 时 间 。 
但 是 ， 这 种 分 区 技术 对 海量 数据 规模 下 的 性 能 改善 效果 却 并 不 明显 。 

Web 2.0 中 的 许多 特性 都 与 关系 模式 中 的 严格 范式 设计 相 矛 盾 。 例 如 ， 标 签 的 分 类 模型 是 
一 种 复杂 的 多 对 多 关系 模型 ， 如 果 按 照 传统 关系 数据 库 范式 设计 要 求 一 “消除 宛 余 性 ， 就 要 
将 标签 和 内 容 存储 在 不 同 的 表 中 ， 这 就 会 导致 系统 性 能 的 低下 ， 因 为 对 标签 的 操作 需要 跨 表 
完成 ( 在 分 区 的 情况 下 ， 还 可 能 需要 跨 磁盘 、 跨 机 器 操作 ) 。 

3. 对 非 结构 化 数据 的 处 理 能 力 不 足 

传统 的 关系 型 数据 库 对 非 结构 化 数据 ( 视频 、 网 页 等 ) 的 支持 度 较 差 ， 只 局 限于 一 些 结 
构 化 数据 中 ( 数据 、 字 符 串 等 ) 。 随 着 硬件 技术 的 快速 发 展 、 互 联网 多 媒体 交流 方式 的 广泛 
推广 以 及 用 户 应 用 需求 的 不 断 提高 ， 处 理 庞大 的 音频 、 视 频 、 图 像 与 邮件 等 复杂 数据 类 型 的 
需求 日 益 增长 ， 用 户 对 这 些 数据 的 处 理 要 求 也 不 只 满足 于 简单 的 存储 ， 而 上 升 为 识别 、 检 索 
以 及 深入 加 工 ， 对 于 这 类 需求 传统 数据 库 早已 显得 力不从心 了 。 

4. 扩展 性 能 差 


在 海量 规模 下 ， 扩 展 性 差 是 传统 数据 库 的 一 个 致命 弱点 。 一 般 通过 向 上 扩展 (Scale up ) 
和 向 外 扩展 (Scale out ) 来 解决 数据 库 扩展 的 问题 。 这 两 种 方式 分 别 从 两 个 不 同 的 维度 来 解 
决 数据 库 在 海量 数据 下 的 压力 问题 。 向 上 扩展 是 通过 升级 硬件 来 提升 速度 ， 从 而 缓解 压力 。 
向 外 扩展 则 是 按照 一 定 的 规则 将 海量 数据 进行 划分 ， 再 将 原来 集中 存储 的 数据 分 散 到 不 同 的 
物理 数据 库 服务 器 上 。 在 向 外 扩展 的 理念 指导 下 ， 分 片 (Sharding ) 成 为 传统 数据 库 的 一 种 解 
决 扩展 性 的 方法 。 通 过 琶 加 相对 廉价 的 设备 ， 分 片 在 存储 和 计算 方面 进行 了 扩展 ， 不 再 受 单 
节点 数据 库 服务 器 输入 输出 能 力 的 限制 ， eaves Ae 
是 ,这 种 解决 扩展 性 的 方案 在 互联 网 的 应 用 场景 下 仍然 存在 着 一 定 的 局 限 性 。 例 如 ， 这 会 
a aaa wo 
均衡 的 问题 ， 从 而 会 花费 较 高 代价 ; 由 于 数据 库 范式 规定 严格 ， 数 据 被 表示 成 关系 模型 ， 从 
而 难以 被 划分 到 不 同 的 分 片 中 ; 而 一 些 数据 可 用 性 和 可 靠 性 问题 也 同样 存在 。 


2.2.2 ”新 兴 的 数据 存储 系统 


通过 对 上 节 描 述 的 传统 关系 型 数据 库 的 局 限 性 可 以 看 出 ， 传 统 的 数据 库 已 经 不 能 满足 互 
联网 应 用 的 需求 了 。 在 这 种 情况 下 ， 一 些 主要 针对 非 结构 化 数据 的 管理 系统 开始 出 现 。 这 些 
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系统 为 了 保障 系统 的 可 用 性 和 并 发 性 ， 通 常 采用 多 副本 的 方式 进行 数据 存储 。 为 了 在 保证 低 
延 时 的 用 户 响 应 时 间 的 同时 维持 副本 之 间 的 一 致 状态 ， 采 用 较 弱 的 一 致 性 模型 ( 如 最 终 一 致 
性 模型 ) ， 而 且 这 些 系统 也 都 提供 了 良好 的 负载 平衡 策略 和 容错 手段 。 

1. HDFS 


Hadoop 是 一 个 开源 分 布 式 计算 平台 ， 属 于 Apache 软 件 基 金 会 旗下 ， 其 核心 是 HDFS (分 
布 式 文件 系统 ) 和 MapReduce， 为 用 户 提 供 分 布 式 基 础 架构 的 系统 底层 细节 。HDFS ( Hadoop 
Distributed File System ) 是 由 Hadoop 实 现 的 一 个 分 布 式 文件 系统 。 它 允许 用 户 将 Hadoop 部 署 到 
低廉 的 硬件 上 ， 形 成 分 布 式 系统 ， 有 具有 高 容错 性 和 高 伸缩 性 等 优点 。 通 过 MapReduce 分 布 式 
编程 模型 ， 在 不 了 解 分 布 式 系统 底层 细节 的 情况 下 ， 用 户 也 可 以 开发 并 行 应 用 程序 。 因 此 ， 
利用 Hadoop 用 户 在 组 织 计 算 机 资源 时 能 够 更 加 轻松 ， 进 而 能 够 搭建 分 布 式 计算 平台 ， 充 分 利 
用 集群 的 计算 和 存储 能 力 ， 完 成 大 规模 数据 的 处 理 。 

HDFS 由 一 个 名 称 节点 (NameNode ) 和 N 个 数据 节点 (DataNode ) 组 成 ， 每 个 节点 都 是 
一 台 普 通 的 计算 机 。 在 使 用 方式 上 HDFS 与 单机 文件 系统 非常 相似 ， 它 可 以 创建 、 复 制 和 删 
除 文件 ， 创 建 目录 ， 查 看 文件 的 内 容 等。 但 HDFS 底 层 把 文件 切割 成 了 Block ， 然 后 在 不 同 的 
DataNode 上 分 散 地 存储 着 这 些 Block， 与 此 同时 ， 为 达到 容错 容 灾 的 目的 ， 每 个 Block 可 将 数据 
复制 数 份 存储 于 不 同 的 DataNode 上 。 整 个 HDFS 的 核心 是 NameNode， 它 通过 一 些 数据 结构 的 
维护 来 记录 每 一 个 文件 被 切割 成 了 多 少 个 Block， 可 以 从 哪些 DataNode 中 获得 这 些 Block， 以 及 
各 个 DataNode 的 状态 等 重要 信息 2。 

HDFS 的 设计 目标 有 以 下 几 点 。 

(1 ) 硬件 故障 检测 及 恢复 。 硬 件 故障 是 常态 ， 而 不 是 异常 ， 硬 件 故障 的 检测 和 自动 快 
速 恢复 可 以 说 是 HDFS 最 核心 的 目标 。 构 成 整个 HDFS 系 统 的 组 件数 目 是 巨大 的 一 一 数 百 台 或 
数 千 台 存储 着 数据 文件 的 服务 器 ， 每 一 个 服务 器 都 很 有 可 能 出 现 故障 ， 这 意味 着 在 HDFS 里 总 
有 一 些 部 件 是 失效 的 。 

(2 ) 流 式 的 数据 访问 。 运 行 在 HDFS 上 的 应 用 程序 不 是 普通 文件 系统 上 的 普通 程序 ， 而 
是 能 流 式 地 访问 数据 集 。HDFS 适 合 批量 处 理 ， 而 不 擅长 与 用 户 交 互 式 地 处 理 。 所 以 较 之 数据 
访问 的 低 延 时 间 题 ， 它 更 看 重 数据 吞吐 量 。 

(3 ) 简化 一 致 性 模型 。HDFS 简 化 了 数据 一 致 性 问题 ， 并 使 高 吞吐 量 的 数据 访问 成 为 可 
能 ， 这 主要 得 益 于 大 部 分 的 HDFS 程 序 操 作文 件 仅 需 一 次 写 人 ， 多 次 读 取 ， 经 过 创建 、 写 入 、 
关闭 之 后 的 文件 不 需要 再 进行 修改 。 

(4 ) 海量 数据 支持 。 运 行 在 HDFS 上 的 应 用 程序 大 都 具有 很 大 的 数据 集 。HDFS 的 典型 文 
件 大 小 一 般 都 在 GB 字 节 至 TB 字 节 。HDFS 不 仅 可 以 用 来 优化 大 文件 存储 并 且 能 提供 集中 式 的 
高 数据 传输 带宽 ， 还 能 够 使 单个 集群 支持 成 百 上 千 个 节点 。 通 常 独立 的 Hadoop 文 件 系统 就 能 
够 支持 上 千 万 个 文件 。 

(5 ) 通信 协议 。HDFS 系 统 的 所 有 通信 协议 都 是 以 TCP/IP 协 议 为 基础 的 。 当 明确 配置 
了 端口 的 名 称 节点 和 客户 端 连接 之 后 ,我 们 称 它 和 名 称 节点 的 协议 为 客户 端 协议 ( Client 
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Protocal ) ， 而 名 称 节点 和 数据 节点 ( DataNode ) 之 间 则 采用 数据 节点 协议 ( DataNode 
Protocal ) 。 

(6 ) 异 构 平 台 间 的 可 移植 性 。HDFS 在 设计 的 时 候 就 考虑 到 异 构 软 硬件 平台 的 可 移植 
性 ， 可 以 简单 方便 地 实现 平台 间 的 迁移 ， 这 种 特性 使 得 HDFS 适 合作 为 大 规模 数据 应 用 平台 。 

Hadoop 这 个 分 布 式 计算 平台 可 以 让 用 户 轻 松 使 用 和 架构 ， 在 Hadoop 上 用 户 可 以 轻松 地 开 
发 和 运行 处 理 海量 数据 的 应 用 程序 。Hadoop 的 优点 一 目 了 然 : 高 可 靠 性 、 高 扩展 性 、 高 容错 
性 和 高 效 性 。 基 于 Hadoop 的 应 用 因 其 突出 的 优势 已 经 层出不穷 ， 特 别 是 在 互联 网 领域 的 应 用 
中 。 在 互联 网 的 不 断 发 展 中 ， 不断 涌 现 了 一 些 新 的 业务 模式 ， 而 对 Hadoop 的 应 用 也 从 互联 网 
领域 拓展 到 了 电信 、 银 行 、 电 子 商务 与 生物 制药 等 领域 。 

本 书 将 在 第 4 章 中 对 Hadoop 进 行 更 加 详细 地 介绍 。 

2. NoSQL 


NoSQL 是 泛 指 非 关系 型 、 分 布 式 和 不 提供 ACID 的 数据 库 ， 它 不 是 单纯 地 反对 关系 型 数据 
库 ， 而 是 强调 键 值 存 储 和 文档 数据 库 的 优点 。 

如 上 节 所 述 ， 由 于 传统 关系 型 数据 库存 在 着 灵活 性 差 、 扩 展 性 差 与 性 能 差 等 原因 ， 它 们 
在 处 理 数据 密集 型 应 用 方面 显得 无 能 为 力 。 最 近 出 现 的 一 些 存 储 系统 转向 采用 不 同 的 解决 方 
案 来 满足 扩展 性 方面 的 需求 ， 舍 弃 了 传统 关系 型 数据 库 管 理 系 统 的 设计 思想 。 人 们 普遍 把 这 
些 没有 固定 数据 模式 的 ， 可 以 水 平 扩展 的 系统 统称 为 NoSQL ( 有 观点 认为 将 其 称 作 NoREL 更 
恰当 ) ， 这 里 的 NoSQL 指 的 是 Not Only SQL， 而 不 是 No SQL， 它 们 是 对 关系 型 SQL 数据 系统 的 
补充 ， 而 不 是 与 之 对 立 。 

NoSQL 系 统 普遍 采用 了 以 下 一 些 技术 。 

(1) 简单 数据 模型 。 大 多 数 NoSQL 系 统 采用 的 是 一 种 更 加 简单 的 数据 模型 。 这 与 分 布 式 
数据 库 不 同 ， 在 这 种 更 加 简单 的 数据 模型 中 ， 每 个 记录 都 有 惟一 的 键 ， 并 且 外 键 和 跨 记 录 的 关 
系 并 不 被 系统 支持 ， 只 支持 单 记录 级 别 的 原子 性 。 这 种 一 次 操作 获取 单个 记录 的 约束 使 数据 操 
作 可 以 在 单 台 机 器 中 执行 ， 由 于 没有 分 布 式 事务 的 开销 ， 极 大 地 增强 了 系统 的 可 扩展 性 。 

(2 ) 弱 一 致 性 。NoSQL 系 统 的 一 致 性 是 通过 复制 应 用 数据 来 实现 的 。 由 于 NoSQL 系 统 广 
泛 应 用 弱 一 致 模型 ， 如 最 终 一 致 性 和 时 间 轴 一 致 性 ， 减 少 了 因 更 新 数据 时 副本 要 同步 的 开销 。 

(3 ) 元 数据 和 应 用 数据 的 分 离 。NoSQL 数 据 管理 系统 需要 对 元 数据 和 应 用 数据 这 两 类 数 
据 进行 维护 。 但 是 这 两 类 数据 的 一 致 性 要 求 并 不 一 样 ， 只 有 元 数据 一 致 且 为 实时 的 情况 下 ， 
系统 才能 正常 运行 ;对 应 用 数据 而 言 场合 不 同 ， 对 其 一 致 性 需求 也 不 同 。 因 此 ，NoSQL 系 统 
将 这 两 类 数据 分 开 管 理 ， 就 能 达到 可 扩展 性 目的 。 在 一 些 NoSQL 系 统 中 甚至 并 没有 元 数据 ， 
解决 数据 和 节点 的 映射 问题 需要 借助 于 其 他 方式 。 

NoSQL 借 助 于 上 述 技术 能 够 很 好 地 解决 海量 数据 带 来 的 挑战 。 

与 关系 型 数据 库 相 比 ，NoSQI 数 据 存储 管理 系统 主要 有 以 下 几 个 优势 。 

(1) 更 简便 。NoSQL 系 统 提供 的 功能 较 少 ， 避 免 了 不 必要 的 复杂 性 ， 从 而 提高 了 性 能 。 
相 比 较 而 言 ， 关 系 型 数据 库 提 供 了 强 一 致 性 和 各 种 各 样 的 特性 ， 但 许多 特性 的 使 用 仅 发 生 在 
某 些 特定 的 应 用 中 ， 大 部 分 得 不 到 使 用 的 特性 使 得 系统 更 复杂 。 
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(2 ) 高 吞吐 量 。 与 传统 关系 型 数据 库 系 统 相 比 ， 一 些 NoSQ[ 数 据 系统 的 吞吐 量 要 高 得 多 。 

(3 ) 低 端 硬件 集群 和 高 水 平 扩展 能 力 。 与 关系 型 数据 库 集群 方法 不 同 的 是 ，NoSQI 数 据 
系统 是 以 使 用 低 端 硬件 为 设计 理念 的 ， 能 够 不 需 付出 很 大 代价 就 可 进行 水 平 扩展 ， 因 此 可 以 
为 采用 NoSQI 数 据 系统 的 用 户 节省 很 多 硬件 方面 的 开销 。 

(4) 避免 了 对 象 一 关系 映射 。 许 多 NoSQL 系 统 能 够 存储 数据 对 象 ， 如 此 就 规避 了 数据 库 
中 关系 模型 和 程序 中 对 象 模型 相互 转化 的 昂贵 代价 。 

NoSQL 向 人 们 提供 了 高 效 、 廉 价 的 数据 管理 方案 。 许 多 公司 开始 借鉴 Google 的 Bigtable 和 
Amzon 的 Dynamo 的 主要 思想 来 建立 自己 的 海量 数据 存储 管理 系统 ， 而 不 再 使 用 Oracle 甚 至 MySQL。 
现在 一 些 系 统 ， 如 Cassandra 被 Facebook 捐 给 了 Apache 软 件 基金 会 ,开始 变 成 开源 项 目 了 。 

目前 市 场 上 主流 的 NoSQL 数 据 存储 工具 有 : Bigtable、Dynamo、HBase、MongoDB、 
CouchDB 和 Hypertable。 此 外 还 存在 着 一 些 其 他 的 开源 的 NoSQL 数 据 库 ， 如 Neo4j 、Riak 、 
Oracle Berkeley DB 、Apache Cassandra 与 Memcached 等 。 

本 书 将 在 第 3 章 中 对 NoSQL 进 行 详细 介绍 。 

3. NewSQL 


NewSQL 是 对 各 种 可 扩展 /高 性 能 数据 库 的 简称 ， 这 类 数据 库 在 保持 了 传统 数据 库 支 持 
ACID 和 SQL 等 能 力 的 同时 ， 还 具有 NoSQL 对 海量 数据 的 存储 管理 能 力 。 人 们 普遍 认为 系统 的 
性 能 是 由 ACID 和 支持 SQL 的 特性 制约 的 ， 其 实 不 然 ， 系 统 性 能 是 由 一 些 其 他 的 机 制 如 缓冲 管 
理 、 锁 机 制 或 日 志 机 制 等 影响 的 。 因 此 ， 只 需 优化 这 些 技 术 ， 在 处 理 海 量 数 据 时 ， 关 系 型 数 
据 库 系 统 也 能 表现 出 良好 的 性 能 。 

这 类 NewSQL 系 统 虽然 内 部 结构 变化 很 大 ， 但 它们 都 有 两 个 显著 的 共同 点 : 都 支持 关系 数 
据 模 型 和 都 是 用 SQL 作为 其 主要 的 接口 。 目 前 的 NewSQL 系 统 大 致 有 三 类 : 采用 新 的 架构 、 利 
用 高 度 优化 的 SQL 存储 引擎 和 提供 透明 分 片 的 中 间 件 层 。 

如 今 已 经 出 现 了 许多 NewSQL 数 据 库 。 例 如 : Google Spanner、VoltDB 、RethinkDB、 
Clustrix 、 TokuDB 和 MemSQL 等 。 

当然 ，NewSQL 与 NoSQL 也 有 交叉 的 地 方 。 比 如 ， 可 以 将 RethinkDB 看 作 是 NewSQL 数 据 
库 中 MySQL 的 存储 引擎 ， 亦 可 看 作 是 NoSQL 数 据 库 中 键 / 值 存 储 的 高 速 缓存 系统 。 现 在 一 些 
NewSQL 提 供 商 为 没有 固定 模式 的 数据 使 用 自己 的 数据 库 提 供 存储 服务 ， 同 时 一 些 NoSQL 数 
据 库 也 开始 支持 SQL 查询 和 ACID 事务 特性 。NewSQL 既 能 够 提供 SQL 数据 库 的 质量 保证 ， 也 能 
提供 NoSQL 数 据 库 的 可 扩展 性 。VoltDB 就 是 这 样 一 个 NewSQI 数 据 库 ， 其 开发 公司 的 CTO 宣 称 ， 
VoltDB 使 用 NewSQL 的 方法 处 理事 务 的 速度 比 传统 数据 库 系统 快 45 倍 。 可 以 把 VoltDB 扩 展 到 39 个 
机 器 上 ， 在 300 个 CPU 内 核 中 每 分 钟 处 理 1600 万 事务 ， 其 所 需 的 机 器 数 比 Hadoop 集 群 要 少 很 多 。 


上 2.3 海量 数据 存储 的 关键 技术 


为 了 满足 数据 、 用 户 规模 的 不 断 增长 的 需求 ， 自 适应 的 数据 划分 方式 以 及 良好 的 负载 均 
衡 策略 对 于 构建 一 个 TB 级 乃至 PB 级 的 数据 存储 系统 来 说 是 必 不 可 少 的 。 而 且 ， 也 需要 在 保证 
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系统 可 靠 性 的 同时 权衡 数据 的 可 用 性 及 一 致 性 ， 用 以 满足 互联 网 应 用 对 高 吞吐 率 、 低 延 时 的 
要 求 。 


2.3.1 数据 划分 


在 分 布 式 环境 中 ， 进 行 数据 存储 必须 跨越 多 个 存储 单元 。 影 响 系 统 性 能 、 负 载 平衡 以 及 
扩展 性 的 关键 因素 之 一 就 是 数据 的 划分 。 系 统 必须 在 用 户 请 求 到 来 时 将 请 求 进行 合理 分 发 ， 
这 样 才能 提供 低 延 时 的 系统 响应 ， 克 服 系统 性 能 的 瓶颈 。 哈 希 映射 和 顺序 分 裂 是 目前 海量 数 
据 管理 系统 进行 数据 划分 主要 采取 的 两 种 方式 。 为 了 适应 数据 的 多 样 性 和 处 理 的 灵活 性 ， 在 
现在 的 互联 网 应 用 中 ， 数 据 通常 以 键 / 值 对 方式 进行 组 织 。 哈 希 映 射 这 种 数据 划分 方式 带 来 的 
性 能 收益 往往 依赖 于 哈 希 算法 的 优 劣 性 ， 因 为 它 是 根据 数据 记录 的 键 值 进行 哈 希 运算 ,然后 
再 根据 哈 希 值 将 数据 记录 映射 至 对 应 的 存储 单元 中 。 顺 序 分 裂 的 数据 划分 方式 是 渐进 式 的 。 
根据 键 值 排序 将 数据 写 到 数据 表 中 ， 当 数据 表 大 小 达到 阔 值 后 即 可 进行 分 裂 ， 然 后 将 分 裂 得 
到 的 数据 分 配 至 不 同 的 节点 上 继续 提供 服务 。 这 样 ， 根 据 键 值 新 流入 的 数据 就 能 自动 找到 相 
应 的 分 片 并 插入 到 表 中 。 

Cassandra 和 Dynamo 对 数据 的 划分 是 通过 一 致 性 哈 希 映射 方式 进行 的 。 这 种 方式 在 为 系统 
带 来 良好 的 扩展 性 的 同时 ， 通 过 在 数据 流入 时 均匀 地 映射 数据 到 对 应 的 存储 单元 中 ， 能 够 最 
大 限度 地 避免 产生 系统 热点 。 

Bigtable 对 数据 的 划分 采用 了 顺序 分 裂 的 方式 。 这 种 划分 方式 是 渐进 式 的 ， 能 够 有 效 地 利 
用 系统 资源 提供 良好 的 扩展 性 。 但 是 频繁 插入 某 个 键 值 范围 可 能 会 导致 负载 热点 的 产生 。 区 
别 于 哈 希 映射 方式 的 是 ， 顺序 分 橡 的 数据 和 存储 节点 并 不 是 直接 映射 的 ， 为 了 集中 管理 这 种 
分 裂 和 映射 行为 ， 在 Bigtable 中 需要 有 一 个 主 控 节点 。 因 此 ， 主 控 节 点 的 管理 能 力 限 制 了 整个 
系统 的 扩展 性 。 

PNUTS 的 数据 组 织 结合 了 这 两 种 方式 ， 它 既 提 供 顺序 表 的 组 织 方式 ， 又 提供 哈 希 表 的 组 
织 形 式 ， 采 用 了 顺序 分 裂 的 方式 ， 按 照 键 或 键 哈 希 值 来 划分 顺序 表 或 哈 希 表 中 的 数据 。 简 而 
言 之 ，PNUTS 哈 希 表 中 的 数据 按照 键 的 哈 希 值 来 有 序 存 放 。 这 些 系统 虽然 根据 不 同 的 数据 模 
型 (顺序 表 、 哈 希 表 、 键 / 值 对 等 ) 来 对 数据 进行 组 织 ， 但 它们 都 按照 这 些 数据 组 织 的 特性 实 
现 了 可 扩展 的 数据 划分 。 所 以 海量 数据 存储 系统 设计 首要 解决 的 问题 应 当 是 基于 应 用 数据 的 
特性 ， 合 理 地 对 数据 划分 策略 进行 敲定 ， 从 而 达到 高 可 扩展 性 。 


2.3.2 ”数据 一 致 性 与 可 用 性 


在 分 布 式 环境 下 ， 数 据 一 致 性 为 数据 操作 的 正确 性 做 出 保证 ， 而 数据 可 用 性 则 是 数据 
存储 的 基石 。 一 般 情况 下 ,为 了 解决 数据 的 可 用 性 问题 往往 会 采用 副本 元 余 、 记 录 日 志 等 方 
式 。 然 而 副本 元 余 又 会 带 来 数据 一 致 性 的 问题 。 在 运用 副本 宛 余 方式 的 分 布 式 系统 中 ， 数 据 
一 致 性 及 系统 性 的 矛盾 往往 难以 调和 ， 需 要 在 严格 的 数据 一 致 性 和 系统 的 性 能 ( 如 响应 时 间 
等 ) 之 间 进 行 折 中 。 有 时 在 互联 网 应 用 需求 下 ， 要 牺牲 严格 的 数据 一 致 性 来 调和 这 种 矛盾 ， 
即 为 了 保证 高 效 的 系统 响应 而 允许 系统 弱化 一 致 性 模型 ， 同 时 采用 异步 复制 的 手段 用 以 确保 
数据 的 可 用 性 。 
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Dynamo 、Bigtable 和 PNUTS 系 统 的 数据 高 可 用 性 主要 是 通过 副本 宛 余 的 方式 来 保证 的 。 
然而 ， 它 们 的 具体 实现 并 不 完全 相同 。Dynamo 采 用 的 是 整个 系统 中 无 主 从 节点 之 分 的 非 集中 
的 管理 方式 ， 其 副本 的 异步 复制 就 是 在 整个 哈 希 环 上 通过 gossip 机 制 进行 通信 来 完成 的 。 而 
Bigtable 和 PNUTS 采 用 的 是 集中 管理 方式 ， 甚 服务 节点 内 存 中 的 数据 可 用 性 均 是 利用 日 志 的 方 
式 来 保证 的 。 但 是 在 数据 存储 可 用 性 方面 ， 两 者 又 有 不 同 ， 与 Bigtable 依 赖 于 底层 分 布 式 文件 
系统 的 副本 机 制 不 同 ，PNUTS 的 数据 元 余 存 储 主要 是 采用 基于 发 行 /订阅 ( pub/sub ) 通信 机 制 
的 主 从 式 异 步 复 制 方式 来 实现 的 : 先 将 数据 同步 至 主 副本 ， 接 着 再 通过 发 行 /订阅 机 制 异 步 更 
新 至 所 有 副本 。 

如 上 所 述 ，Dynamo 和 PNUTS 是 需要 跨 数据 中 心 部 署 的 ， 均 采用 异步 复制 的 方式 进行 副 
本 更 新 ， 为 维护 系统 的 高 性 能 而 在 某 种 程度 上 牺牲 一 定 的 数据 一 致 性 。 由 此 可 知 ， 数 据 一 致 
性 、 可 用 性 及 系统 性 能 的 权衡 考虑 与 应 用 特性 和 部 署 方式 紧密 相关 。 


2.3.3 ”负载 均衡 


在 分 布 式 环境 下 ， 如 何 进行 高 效 数据 管理 的 关键 问题 是 负载 均衡 。 负 载 均衡 主要 包含 两 
个 方面 的 内 容 : 数据 的 均衡 与 访问 压力 均衡 。 如 前 所 述 ， 在 分 布 式 环境 中 ， 采 用 一 定 的 划分 
策略 ， 例 如 哈 希 、 顺 序 分 裂 等 ， 将 数据 进行 划分 并 存储 于 不 同 的 节点 之 上 ， 再 由 不 同 的 节点 
来 对 用 户 的 访问 请 求 进行 处 理 。 但 是 用 户 访问 请 求 的 分 布 规律 具有 无 法 预测 性 ， 这 最 终 会 导 
臻 数据 存储 分 布 及 节点 访问 压力 的 不 均衡 。 由 于 存在 数据 分 布 和 访问 负载 不 均衡 的 情况 ， 整 
个 系统 的 性 能 在 持续 的 数据 加 载 压力 以 及 频繁 的 并 发 访问 下 将 会 下 降 。 因 此 海量 存储 系统 
需要 有 一 套 良 好 的 均衡 机 制 来 保证 数据 加 载 的 高 吞吐 率 、 系 统 响应 的 低 延 时 以 及 系统 的 稳 
定性 。 

虚拟 节点 是 一 种 能 够 使 访问 压力 达到 均衡 的 技术 ， 它 能 够 采用 虚拟 化 的 手段 来 单元 化 
节点 的 服务 能 力 ， 根 据 访 问 压力 大 小 将 压力 较 小 的 虚拟 节点 映射 至 服务 能 力 较 弱 的 物理 节点 
上 ， 对 压力 较 大 的 节点 则 映射 至 能 力 较 强 的 节点 上 。 这 样 在 访问 压力 达到 均衡 的 同时 ， 数 据 
也 会 达到 均衡 状态 。 为 了 使 数据 在 均衡 过 程 中 数据 迁移 的 开销 达到 最 小 ，Dynamo 采 用 了 虚拟 
化 技术 ， 通 过 量化 节点 的 存储 能 力 ， 使 虚拟 后 的 存储 节点 能 够 相对 均匀 地 分 布 到 集群 哈 希 环 
上 ， 从 而 有 效 地 避免 了 数据 在 均衡 过 程 中 导致 的 全 环 的 数据 移动 。 在 非 集中 式 系统 中 ， 可 以 
由 任意 节点 发 起 这 些 均衡 操作 ， 并 由 gossip 通 信和 机制 和 集群 中 另外 的 节点 来 协调 完成 。 

Bigtable 与 像 Dynamo 这 样 的 非 集中 式 管理 方式 不 同 ， 对 各 个 子 表 服 务 器 ( tablet server ) 上 
的 访问 负载 状态 是 由 主 控 节点 ( master ) 来 监控 的 。 同 样 的 ， 子 表 的 分 裂 和 迁移 是 利用 主 控 
节点 来 调度 管理 的 ， 从 而 将 访问 压力 均匀 地 分 散 到 各 个 子 表 服务 器 上 。Bigtable 的 数据 底层 存 
储 运用 的 是 分 布 式 文件 系统 ， 以 一 种 巧妙 的 方式 避免 了 数据 均衡 的 问题 ， 因 为 其 访问 压力 均 
衡 过 程 中 并 不 涉及 存储 数据 的 迁移 操作 。 相 似 的 方式 同样 被 PNUTS 用 来 均衡 访问 压力 。 不 一 
样 的 是 ，PUNTS 的 数据 底层 存储 是 本 地 的 文件 系统 或 数据 库 系统 ， 它 在 实施 子 表 (tablet ) 的 
分 裂 及 迁移 之 际 ， 需 要 对 存储 数据 进行 迁移 9。 

显而易见 ， 有 效 的 数据 划分 方式 是 一 柄 双 刃 剑 ， 一 方面 它 为 系统 扩展 性 提供 基础 ， 另 
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一 方面 也 给 系统 带 来 了 负载 均衡 的 问题 。 因 此 ,海量 存储 系统 面临 着 这 样 一 个 挑战 : 如 何在 
通过 虚拟 化 节点 或 表 分 裂 等 方式 更 改 数据 分 布 格局 ， 在 访问 负载 均衡 的 同时 ， 要 避免 数据 迁 
移 ， 或 者 至 少 尽量 降低 数据 迁移 量 。 


2.3.4 ”容错 机 制 

分 布 式 系统 的 健壮 性 标志 是 容错 性 。 保 证 系统 的 可 用 性 和 可 靠 性 的 关键 问题 就 是 节点 的 
失效 侦 测 和 失效 恢复 。 

1. 失效 侦 测 


在 像 Dynamo 和 Cassandra 这 样 的 非 集中 式 系统 中 ， 为 了 解 每 个 节点 的 活动 状态 ， 各 个 节 
点 之 间 需 要 定期 进行 交互 ， 从 而 完成 对 失效 节点 的 侦 测 。 而 在 集中 式 系统 中 ， 整 个 分 布 式 系 
统 的 节点 状态 信息 需要 由 专门 的 节点 (部件 ) 来 维护 ， 失 效 节点 是 否 存在 需要 通过 “心跳 ” 
机 制 来 侦 测 。 如 Bigtable 的 失效 侦 测 主要 是 采用 分 布 式 锁 服 务 chubby 追 踪 主 控 节 点 的 子 表 节 
点 的 服务 状态 来 实现 的 。PNUTS 中 节点 失效 是 否 存 在 的 判断 则 主要 来 自 子 表 控制 器 (tablet 
controller ) 部 件 维护 的 活动 节点 路 由 信息 ?。 

2. 失效 恢复 

为 了 确保 系统 的 可 靠 性 与 可 用 性 ,需要 有 相应 的 失效 恢复 策略 来 完成 对 系统 中 侦 测 到 
的 失效 节点 的 恢复 。 在 分 布 式 系统 中 ， 存 在 两 种 节点 失效 的 情况 ， 临时 失效 ( 例如 网 络 分 区 
等 ) 和 永久 失效 ( 例如 磁盘 损坏 、 节 点 死机 等 ) 。 在 副本 宛 余 存储 的 分 布 式 系统 中 ， 失 效 通 
常会 造成 失效 节点 内 存 中 数据 的 丢失 ， 通 常 解决 这 类 问题 的 方法 是 日 志 重 做 。 而 在 不 同 的 系 
统 中 具体 的 失效 恢复 策略 又 有 不 同 的 特点 。 

在 此 以 Bigtable 为 例 。Bigtable 并 不 区 分 是 临时 失效 还 是 永久 失效 。Bigtable 依 赖 主 控 节 点 
通过 “心跳 ”机 制 来 完成 对 失效 的 侦 测 ， 即 在 限定 时 间 内 如 果 主 控 节点 无 法 通过 “心跳 ”机 
制 获得 从 节点 的 响应 就 认为 该 从 节点 已 经 失效 。 就 算 临时 失效 的 节点 有 可 能 与 主 控 节 点 重新 
建立 连接 ， 主 控 节 点 也 会 停止 这 些 节点 ， 因 为 这 些 节点 上 的 服务 早已 被 分 配 到 其 他 的 节点 上 
了 。 由 于 服务 的 迁移 并 不 涉及 存储 数据 的 移动 ， 也 就 不 会 带 来 额外 的 系统 开销 ， 故 究 竞 属于 
何 种 失效 状态 也 就 不 存在 区 分 的 必要 。 这 种 共享 存储 方式 依靠 底层 的 分 布 文件 系统 ， 也 对 系 
统 的 失效 恢复 进行 了 简化 。 

在 集中 式 系统 中 ， 主 节点 各 种 失效 恢复 方式 的 差异 是 由 其 主 从 节点 的 功能 差异 导致 的 。 
主 节点 的 失效 将 是 灾难 性 的 ， 因 为 它 维护 的 是 系统 元 信息 。 在 集中 式 系统 中 ,为 了 防止 主 节 
点 的 失效 ,通常 是 利用 节点 备份 (多 机 、 双 机 备份 ) 。 然 而 Bigtable 的 集群 节点 的 状态 信息 主 
要 依靠 chubby 来 管理 ， 整 个 系统 存储 的 元 信息 则 使 用 子 表 服务 器 来 加 以 管理 ， 从 而 将 主 节点 
的 管理 功能 弱化 ， 降 低 了 主 节 点 失效 而 引起 灾难 的 可 能 性 ， 与 此 同时 也 减 小 了 主 节点 恢复 的 

在 非 集中 数据 存储 系统 中 ， 如 Dynamo， 其 哈 希 方式 的 数据 划分 策略 ， 使 得 系统 中 各 个 节 
点 在 作为 存储 节点 的 同时 也 作为 服务 节点 ， 服 务 迁移 的 同时 伴随 着 海量 的 数据 迁移 。 因 此 系 
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统 需要 极其 认真 地 应 付 各 种 各 样 的 失效 状态 ， 在 失效 恢复 过 程 中 应 当 努力 避免 由 于 大 规模 迁移 
存储 数据 而 导致 的 系统 花 销 。 基 于 上 述 原因 ， 临 时 失效 和 永久 失效 在 Dynamo 中 会 被 区 别 对 待 。 

由 上 可 以 看 出 ， 失 效 侦 测 技术 的 选择 与 集群 管理 方式 是 集中 式 还 是 非 集中 式 有 着 紧密 的 
关系 ， 该 选择 一 般 相对 固定 ,但 是 失效 恢复 策略 的 实现 却 因应 用 而 有 所 不 同 。 系 统 的 设计 者 
可 基于 应 用 特性 ， 权 衡 系统 性 能 与 数据 一 致 性 、 可 用 性 等 多 个 影响 因素 来 选择 更 合适 的 失效 
恢复 策略 9。 


2.3.5 ”虚拟 存储 技术 


虚拟 存储 2 就 是 将 硬盘 ，RAID 等 多 个 存储 介质 模块 按照 一 定 的 手段 集中 管理 起 来 ， 在 一 
个 存储 池 (Storage Pool ) 中 统一 管理 全 部 的 存储 模块 。 站 在 主机 和 工作 站 的 角度 来 看 ， 就 是 
一 个 分 区 或 是 卷 ， 而 不 是 多 个 硬盘 ， 更 类 似 于 一 个 超大 容量 ( 例如 大 于 1TB ) 的 硬盘 。 这 种 
能 够 把 多 种 、 多 个 存储 设备 统一 管理 起 来 ， 为 使 用 者 提供 大 容量 且 高 数据 传输 性 能 的 存储 系 
统 ， 称 之 为 虚拟 存储 。 根 据 虚拟 存储 的 拓扑 结构 可 将 之 分 为 对 称 式 和 非 对 称 式 两 种 。 对 称 式 
虚拟 存储 技术 是 指 将 虚拟 存储 控制 设备 和 存储 软件 系统 、 交 换 设备 集成 为 一 个 整体 ， 内 散 于 
网 络 数据 传输 路 径 之 中 ; 非 对 称 式 虚 拟 存储 技术 是 指 虚 拟 存储 控制 设备 独立 于 数据 传输 路 径 
之 外 。 根 据 虚拟 化 存储 的 实现 原理 也 可 分 为 数据 块 虚拟 与 虚拟 文件 系统 两 种 方式 。 

虚拟 存储 系统 的 结构 如 图 2.1 所 示 。 共 享 存储 系统 由 三 大 部 分 组 成 ， 即 运行 于 主机 的 存储 
管理 软件 、 互 联网 络 、 磁 盘 阵 列 等 网 络 存储 设备 。 


应 用 程序 应 用 程序 
文件 ， 数 据 库 文件 ， 数 据 库 
卷 管理 器 卷 管理 器 

存储 网 
虚拟 化 
虚拟 化 虚拟 化 
RAID RAID 


图 2.1 虚拟 存储 系统 的 结构 
与 之 对 应 ， 可 以 分 别 在 共享 存储 系统 的 三 个 层次 上 实现 存储 虚拟 化 ， 即 基于 主机 的 虚 
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拟 存储 、 基 于 网 络 的 虚拟 存储 和 基于 存储 设备 的 虚拟 存储 ?。 各 个 层次 的 虚拟 技术 都 各 有 特 
点 , 但 其 目的 都 是 为 了 使 共享 存储 更 易于 管理 。 


2.3.6 云 存 储 技术 


云 存储 是 由 云 计算 (cloud computing ) 概念 延伸 以 及 衍生 发 展 而 来 的 一 个 新 的 概念 。 云 
计算 则 是 并 行 处 理 ( Parallel Computing ) 、 分 布 式 处 理 ( Distributed Computing ) 以 及 网 格 计算 
(Grid Computing ) 的 发 展 ， 是 借 由 网 络 把 巨大 的 计算 处 理 程序 自动 拆 分 为 无 数 个 相对 较 小 的 
子 程序 ， 然 后 通过 多 部 服务 器 所 形成 的 庞大 系统 经 运算 分 析 之 后 ， 再 把 得 到 的 处 理 结果 传 回 
给 用 户 。 借 助 云 计算 技术 ， 网 络 服务 提供 者 能 够 在 短 短 的 几 秒 内 ， 处 理 数 以 千 万 计 乃 至 上 亿 
计 的 信息 ， 达 到 提供 与 “超级 计算 机 ”一 样 强大 的 网 络 服务 。 与 云 计 算 的 概念 相 类 似 ， 云 存 
储 是 指 凭借 分 布 式 文件 系统 、 集 群 应 用 、 网 格 技术 等 功能 ， 通 过 应 用 软件 将 网 络 中 大 量 不 同 
类 型 的 存储 设备 集合 起 来 协同 作用 ， 实 行 共 同 对 外 提供 数据 存储 以 及 业务 访问 功能 的 一 个 系 
统 ， 这 样 既 保证 了 数据 的 安全 性 ， 也 节约 了 存储 空间 。 简 单 说 来 ， 云 存储 就 是 将 储存 资源 放 
到 云 上 供用 户 存 取 的 一 种 新 兴 方 案 ， 使 用 者 不 管 处 于 何 时 何 地 都 能 够 通过 任何 可 连 网 的 装置 
连接 到 云 上 ， 方 便 地 存 取 数 据 。 

云 存储 是 一 种 新 型 态 存储 系统 ， 它 的 产生 是 为 了 处 理 高 速成 长 的 数据 量 。 云 存储 相 比 于 
传统 的 存储 设备 ， 不 单单 是 一 个 硬件 ， 更 是 一 个 由 多 个 部 分 ( 如 存储 设备 、 网 络 设备 、 应 用 
软件 、 接 入 网 、 公 用 访问 接口 、 服 务 器 、 客 户 端 程序 等 ) 组 成 的 复杂 系统 。 存 储 设 备 是 各 部 
分 的 核心 ， 对 外 提供 的 数据 存储 以 及 业务 访问 服务 主要 通过 应 用 软件 来 完成 。 云 存储 系统 由 4 
层 组 成 : 存储 层 、 基 础 管理 层 、 应 用 接口 层 和 访问 层 ， 如 图 2.2 所 示 。 


企 事业 单位 或 SMB 视频 监控 、IPTV 等 
访问 层 个 人 空间 服务 、 运 | | 实现 数据 备份 、 数 | | 系统 的 集中 存储 ， 
营 商 空间 租赁 等 据 归 档 、 集 中 存 网 站 大 容量 在 线 存 

储 、 远 程 共享 等 储 等 


应 用 接口 层 网 络 (广域网 或 互联 网 ) 接 入 、 用 户 认 证 、 权 限 管理 
公用 API 接 口 、 应 用 软件 、Web service 等 


人 机 交 扣 人 
基础 管理 层 重复 数据 出 除 
es 数据 容 灾 


存储 虚拟 化 、 存 储 集中 管理 、 状 态 监控 、 维 护 升级 等 
存储 设备 (NAS、FC、iSCSI 等 ) ) 


图 2.2 云 存储 系统 组 成 图 
云 存储 的 最 基础 部 分 就 是 存储 层 。 存 储 设 备 可 以 是 IP 存 储 设备 ， 如 ANS 和 iSCSI 等 。 也 可 


存储 层 | 
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以 是 DAS 存 储 设备 ， 如 SCSI 或 者 SAS 以 及 FC 光纤 通道 存储 设备 等 。 云 存储 中 的 存储 设备 通常 
分 布 在 不 同 地 域 有 数量 非常 庞大 ， 通 过 互联 网 、 广 域 网 或 FC 光纤 通道 网 络 把 各 个 存储 设备 连 
接 在 一 起 。 统 一 存储 设备 管理 系统 在 存储 设备 的 上 一 层 ， 它 能 够 完成 多 链 路 元 余 管 理 ， 存 储 
设备 的 逻辑 虚拟 化 管理 以 及 硬件 设备 的 状态 监控 与 故障 维护 。 

云 存 储 最 核心 、 最 难以 实现 的 部 分 是 基础 管理 层 。 基 础 管理 层 的 主要 功能 是 使 云 存 储 中 
多 个 存储 设备 之 间 可 以 协同 工作 ， 以 便 对 外 提供 同一 种 服务 ， 能 够 提供 更 大 、 更 好 、 更 强 的 
数据 访问 性 能 ， 它 所 采用 的 技术 主要 有 集群 系统 、 分 布 式 文件 系统 和 网 格 计算 等 。 为 了 保证 
云 存 储 中 的 数据 不 会 被 未 授权 的 用 户 所 访问 ， 它 还 提供 了 CDN 内 容 分 发 系统 以 及 数据 加 密 技 
术 。 同 时 ， 为 了 确保 云 存储 中 的 数据 不 丢失 以 及 云 存储 自身 的 安全 和 稳定 ， 它 还 采取 了 各 种 
数据 备份 、 数 据 容 灾 技 术 和 措施 。 

云 存 储 中 灵活 性 最 好 的 部 分 是 应 用 接口 层 。 根 据 实 际 业务 类 型 的 不 同 ， 不 同 的 云 存储 运 
营 单位 开发 的 应 用 服务 接口 及 提供 的 应 用 服务 也 不 一 样 。 例 如 在 线 音乐 播放 应 用 平台 、 网 络 
硬盘 应 用 平台 、IPTV 和 视频 点 播 应 用 平台 、 远 程 教学 应 用 平台 等 。 

用 户 获得 云 存储 系统 的 授权 后 ， 就 可 以 通过 标准 的 公用 应 用 接口 进行 登录 并 享受 云 存 储 
服务 。 云 存储 提供 的 访问 类 型 和 访问 手段 会 根据 云 存储 运营 单位 的 不 同 而 有 所 不 同 。 


和 2.4 数据 仓库 


数据 仓库 是 决策 支持 系统 和 联机 分 析 应 用 数据 源 的 结构 化 数据 环境 。 本 节 主 要 从 数据 仓 
库 的 相关 概念 、 体 系 结构 、 设 计 与 实施 等 方面 介绍 数据 仓库 ， 同 时 疝 述 了 数据 的 抽取 、 转 换 
和 装载 以 及 联机 分 析 处 理 等 数据 仓库 技术 。 


2.4.1 数据 仓库 的 相关 概念 


随 着 计算 机 技术 的 快速 发 展 以 及 企业 界 新 需求 的 不 断 提出 ， 数 据 仓库 技术 的 出 现 便 水 
到 渠 成 。 尤 其 是 在 大 数据 时 代 背 景 下 ， 传 统 的 以 单一 的 数据 资源 ， 即 以 数据 库 为 中 心 的 数据 
库 技术 已 不 能 满足 数据 处 理 多 样 化 的 需要 。 当前 的 数据 处 理 大 致 可 以 分 为 两 种 : 操作 型 处 理 
(事务 型 处 理 ) 和 分 析 型 处 理 (或 信息 型 处 理 ) 。 操 作 型 处 理 主要 是 为 企业 的 特定 应 用 服务 
的 ， 是 对 数据 库 联机 的 日 常 操作 ， 如 对 一 个 或 一 组 记录 进行 查询 和 修改 ， 人 们 普遍 关心 的 是 
系统 的 响应 时 间 以 及 数据 的 完整 性 和 安全 性 。 分 析 型 处 理 主要 是 为 管理 人 员 的 决策 分 析 服 务 
的 ， 例 如 DSS、EIS 和 多 维 分 析 等 ， 这 类 服务 经 常 要 访问 大 量 的 历史 数据 。 两 者 之 问 的 巨大 差 
异 导致 了 操作 型 处 理 和 分 析 型 处 理 的 必然 分 离 。 

1. 数据 仓库 定义 


数据 仓库 ( Data Warehouse ) 的 概念 来 自 于 WH: Inmon 在 1992 年 出 版 的 《建立 数据 仓 
库 》 (Building the Data Warehouse ) 一 书 。 数 据 仓库 是 以 关系 数据 库 、 并 行 处 理 和 分 布 式 技术 
为 基础 的 信息 新 技术 。 除 此 之 外 ， 业 界 对 数据 仓库 的 定义 还 有 很 多 种 。 

W* HH， Inmon 对 数据 仓库 的 定义 : 数据 仓库 是 一 个 面向 主题 的 、 集 成 的 、 非 易 失 的 且 随 
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时 间 变 化 的 数据 集合 ， 用 来 支持 管理 人 员 的 决策 。 
SAS 软 件 研究 所 的 观点 : 数据 仓库 是 一 种 管理 技术 ， 旨 在 通过 通畅 、 合 理 、 全 面 的 信息 
管理 ， 达 到 有 效 的 决策 支持 。 
从 数据 仓库 的 定义 可 以 看 出 ， 与 数据 库 为 事务 处 理 服务 不 同 ， 数 据 仓库 是 明确 为 决策 支 
持 来 服务 的 。 
2. 数据 仓库 的 特点 
从 数据 仓库 的 定义 不 难看 出 ， 数 据 仓库 有 四 个 主要 特点 : 面向 主题 的 、 集 成 的 、 数 据 不 
可 更 新 的 、 数 据 是 随时 间 不 断 变化 的 。 
(1 ) 数据 仓库 是 面向 主题 的 
eerste 数据 仓库 的 数据 是 按照 一 定 的 主题 域 进 行 组 
织 的 ， 排 除了 对 决策 无 用 的 数据 ， 提 供 特定 主题 的 简明 视图 ， os 
pat 。 主 题 是 一 个 在 较 高 层次 上 将 企业 信息 系统 中 的 数据 进行 综合 、 归 类 并 分 析 利 
的 抽象 概念 ， 它 是 数据 归 类 的 标准 . 每 一 个 主题 在 逻辑 意义 上 是 与 企业 中 某 一 A 
所 涉及 的 分 析 对 象 相对 应 的 。 所 谓 面 向 主题 的 数据 组 织 是 一 种 在 较 高 层次 上 对 分 析 对 象 的 数 
据 进行 一 个 完整 、 一 致 的 描述 ， 能 够 刻画 各 个 分 析 对 象 所 涉及 的 企业 的 各 项 数据 以 及 数据 之 
间 联 系 的 数据 组 织 方式 。 其 中 较 高 层次 指 的 是 按照 主题 进行 数据 组 织 的 方式 ， 比 面向 应 用 的 
数据 组 织 方式 具有 更 高 级 别 的 数据 抽象 。 
目前 ， 数 据 仓库 仍 是 采用 关系 数据 库 技 术 来 实现 的 ， 即 它 的 数据 最 终 也 用 关系 来 表现 ， 
这 里 特别 强调 的 是 主题 与 面向 主题 这 两 个 概念 的 逻辑 意义 。 
在 此 以 一 家 大 型 网 上 书店 为 例 ,来 说 明 面 向 主题 与 传统 的 面向 应 用 两 者 之 间 数 据 组 织 方 
式 的 差别 ， 以 便 读者 更 好 地 理解 主题 这 一 抽象 概念 。 该 网 上 书店 按照 业务 建立 起 了 采购 、 库 
存 、 销 售 以 及 人 事 管理 子 系统 ， 并 按照 各 自 的 业务 处 理 的 要 求 ， 建 立 了 数据 库 模式 。 
@ 采购 子 系统 : 
@ 采购 单 (采购 单 号 ， 出 版 社 号 ， 总 金额 ， 日 期 ， 采 购 员 ) 
多 采购 单 细则 (采购 单 号 ， 书 号 ， 采 购 单 价 ， 数 量 ， 总 价 ) 
多 书 (书号, 书 名 ， 作 者， 类别， 出 版 社 号 ) 
多 出 版 社 ( 出 版 社 号 ， 出 版 社 名 ， 地址 ， 电 话 ) 

@ 库存 管理 子 系统 : 
信 领 书 单 ( 领 书 单 号 ， 领 书 人 ， 日 期 ) 
信 领 书 单 细则 ( 领 书 单 号 ， 书 号 ， 数 量 ) 
多 进 书 单 ( 进 书 单 号 ， 采 购 单 号 ， 进 书 人 ， 收 书 人 ， 日 期 ) 
@ 库存 (书号 ， 库 房 号 ， 库 存量 ， 日 期 ) 
多 库房 (库房 号 ， 仓 库 管 理 员 ， 地 点 ， 库 存 商 品 描述 ) 

@ 销售 子 系统 : 

多 会 员 (会 员 号 ， 会 员 名 ， 支 付 帐 号 ， 会 员 等 级 ， 邮 箱 ， 电 话 ) 
@ 销售 (订单 号 ， 会 员 号 ， 总 人 金额， 日 期 ， 收 货 人 ， 收 货 地 址 ， 收 货 电 话 ) 
多 销售 细则 ( 订单 号 ， 书号， 数量 ， 销 售 单价 ， 总 价 ) 
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@ 人 事 管 理子 系统 : 

@ 员工 (员工 号 ， 姓 名 ， 性别， 年龄 ， 文 化 程度 ， 部 门 号 ， 职 位 号 ) 
多 部 门 (部 门 号 ， 部 门 名 称 ， 部 门 主管 ， 电 话 ) 
人 职位 (职位 号 ， 职 位 名 称 ， 职 责 描述 ) 

按照 面向 主题 的 方式 ， 数 据 的 组 织 分 为 两 个 步骤 : 抽取 主题 以 及 确定 每 个 主题 所 包含 的 
数据 内 容 。 按 照 分 析 的 需求 抽取 主题 ， 每 个 主题 有 着 各 自 独立 的 逻辑 内 涵 ， 对 应 着 一 个 分 析 
对 象 。 仍 以 上 面 网 上 书店 为 例 ， 通 过 概括 各 个 分 析 领 域 的 分 析 对 象 ， 综 合 后 得 到 各 个 主题 。 
它 所 应 有 的 主题 包括 书籍 、 出 版 社 、 会 员 等 ， 这 三 个 主题 具体 应 包含 如 下 内 容 。 

@ 书籍: 

人 书籍 固有 信息 包括 书号 ， 书 名 ， 作 者 ， 类 别 等 。 
多 书籍 采购 信息 包括 书号 ， 出 版 社 号 ， 总 金额 ， 采 购 单 价 ， 数 量 ， 采 购 日 期 等 。 
人 书籍 销售 信息 包括 书号 ， 会 员 号 ， 销 售 单价 ， 销 售 日 期 ， 销 售 量 等 。 
人 @ 书籍 库存 信息 包括 书号 ， 库 房 号 ， 库 存量 ， 日 期 等 。 
@ 出 版 社 : 
多 出 版 社 固有 信息 包括 出 版 社 号 ， 出 版 社 名 ， 地址， 电话 等 。 
多 供应 书籍 信息 包括 出 版 社 号 ， 书号， 采购 单价 ， 采购 日 期 数量 等 。 

@ 会 员 : 

@ 会 员 固 有 信息 包括 会 员 号 ， 会 员 名 ， 支 付 帐 号 ， 会 员 等 级 ， 邮 箱 ， 电 话 等 。 
令 会 员 购书 信息 包括 会 员 号 ， 书 号 ， 销 售 单价 ， 购 买 日 期 ， 购 买 量 等 。 

现在 以 “书籍 ”这 一 主题 为 例 ， 可 以 看 到 关于 书籍 的 各 种 信息 都 已 综合 在 “书籍 ” 主 
题 中 了 。 它 主要 描述 的 内 容 包 括 两 方面 : 一 ,包含 了 书籍 的 固有 信息 ， 如 书号 、 书 名 、 作 者 
以 及 类 别 等 等 书籍 的 描述 信息 ; 二 ，“ 书 籍 ”主题 中 也 包含 有 书籍 的 流动 信息 ， 如 描述 了 某 
书籍 采购 信息 、 书 籍 销 售 信息 以 及 书籍 库存 信息 等 。 与 网 上 书店 原 有 数据 库 的 数据 模式 相 
比 ， 可 以 看 出 以 下 两 点 : 一 方面 ， 在 从 面向 应 用 到 面向 主题 的 转变 过 程 中 ， 丢 弃 了 原来 不 必 
要 的 、 不 适 于 分 析 的 信息 ， 如 有 关 采 购 单 信息 、 领 书 单 等 内 容 就 不 再 出 现在 主题 中 ; 另 一 方 
面 ， 在 原 有 的 数据 库 模式 中 ， 关 于 书籍 的 信息 是 分 散在 各 个 子 系统 中 的 ， 根 本 没有 形成 一 个 
关于 书籍 的 完整 的 一 致 性 描述 ， 如 书籍 的 采购 信息 存在 于 采购 子 系统 中 ， 书 籍 的 销售 信息 则 
存在 于 销售 子 系统 中 ， 书 籍 库存 信息 却 又 存在 于 库存 管理 子 系统 中 。 而 面向 主题 的 数据 组 织 
方式 就 是 强调 要 形成 关于 书籍 的 一 致 的 信息 集合 ， 以 便 在 此 基础 上 针对 “书籍 ”这 一 分 析 对 
象 进 行 分 析 处 理 。 

不 同 的 主题 之 间 也 会 有 重 释 的 部 分 ， 这 些 重叠 的 部 分 往往 是 前 面 所 说 的 第 二 方面 的 内 
容 , 如 “书籍 ”主题 的 书籍 采购 信息 同 “ 出 版 社 ” 主 题 的 供应 书籍 信息 都 来 自 采购 子 系统 ， 
它们 是 相同 的 ， 这 表现 了 “出 版 社 ” 和 “书籍 ”这 两 个 主题 之 间 的 联系 ; “书籍 ”主题 的 书 
籍 销售 信息 则 同 “会 员 ” 主 题 中 的 会 员 购书 信息 都 来 源 于 销售 子 系统 ， 这 表现 的 是 “书籍 
和 “会 员 ” 之 间 的 联系 。 有 两 点 特别 需要 注意 的 地 方 : 第 一 ， 主 题 之 间 的 重 共 并 不 是 同一 数 
据 内 容 的 重复 物理 存储 ， 而 是 逻辑 上 的 重 琶 ; 第 二 ， 主 题 之 间 并 不 是 两 两 重 友 的 ， 如 “出 版 
社 ” 和 “会 员 ” 两 个 主题 间 一 般 是 没有 重 释 内 容 的， 这 表明 了 “出 版 社 ” 和 “会 员 ” 之 间 是 
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不 直接 发 生 联 系 的 ， 它 们 之 间 的 间接 联系 是 通过 “书籍 ”这 一 主题 来 体现 的 。 

不 同 企业 的 主题 也 会 不 同 ， 例 如， 对 一 家 制造 企业 来 说 ， 销 售 、 发 货 和 存货 都 是 非常 重 
要 的 主题 ， 而 对 于 一 家 零售 商 来 说 ， 在 付款 柜台 处 的 销售 才 是 非常 重要 的 主题 。 

主题 只 是 一 个 逻辑 的 概念 ， 它 依然 是 基于 关系 数据 库 来 实现 的 。 在 具体 现实 中 ， 可 将 一 
个 主题 划分 为 多 个 表 。 但 是 数据 仓库 中 的 数据 已 经 经 过 了 一 定 程 度 的 综合 ， 而 不 再 是 业务 处 
理 的 流水 帐 。 如 书籍 表 中 一 条 记录 是 某 段 时 期 内 该 本 书 采 购 、 销 售 情况 的 总 和 。 

(2 ) 数据 仓库 的 数据 是 集成 的 

数据 仓库 中 的 数据 是 抽取 自 原 有 的 、 分 散 的 数据 库 中 的 数据 。 分 析 型 数据 与 操作 型 数 
据 之 间 存 在 着 很 大 的 差别 : 第 一 ， 数 据 仓库 的 每 个 主题 所 对 应 的 原 数 据 是 分 散在 不 同 数据 库 
中 的 ， 且 是 与 不 同 的 应 用 逻辑 捆绑 在 一 起 的 ， 不 可 避免 地 会 出 现 许 多 重复 和 不 一 致 的 地 方 ; 第 
二 ， 数 据 仓库 中 的 综合 数据 不 是 对 原 有 数据 的 简单 复制 ， 因 此 ， 数 据 仓 库 建设 中 最 关键 、 最 复杂 
的 一 步 就 是 必须 在 数据 进入 数据 仓库 前 ， 消 除数 据 中 不 一 致 及 错误 的 地 方 ， 对 数据 进行 统一 ， 以 
保证 数据 的 质量 。 这 要 完成 两 项 工作 : 统一 原 数 据 中 所 有 了 矛盾 之 处 ， 以 及 进行 数据 综合 和 计算 。 

(3 ) 数据 仓库 的 数据 是 不 可 更 新 的 

数据 仓库 中 的 数据 在 通常 情况 下 是 不 会 进行 修改 操作 的 ， 它 所 涉及 的 主要 数据 操作 是 数 
据 查 询 ， 供 企业 决策 分 析 之 用 。 数 据 仓库 中 的 数据 并 非 是 简单 的 联机 处 理 的 数据 ， 而 是 不 同 
时 点 的 数据 库 快照 的 集合 ， 和 基于 这 些 快 照 来 统计 、 综 合 以 及 重组 的 导出 数据 ， 反 映 的 是 一 
段 相当 长 的 时 间 内 历史 数据 的 内 容 。 存 放 在 数据 仓库 中 的 数据 是 之 前 数据 库 中 通过 联机 处 理 
的 数据 集成 后 输入 进去 的 ， 它 是 有 存储 期 限 的 ， 一旦 超过 这 个 存储 期 限 ， 便 从 当前 的 数据 仓 
库 中 将 这 些 数据 删 去 。 数 据 仓 库 管理 系统 DWMS 相 比 DBMS 而 言 要 简单 得 多 ， 因 为 数据 仓库 
中 通常 只 对 数据 查询 进行 操作 。 在 数据 仓库 的 管理 中 ， 几 乎 可 以 将 DBMS 中 许多 像 完整 性 保 
护 、 并 发 控制 这 样 的 技术 难点 省 去 ， 但 是 数据 仓库 对 数据 查询 的 要 求 却 比 DBMS 要 高 得 多 。 
因为 数据 仓库 所 涉及 的 主要 数据 操作 就 是 数据 查询 ， 且 其 查询 数据 量 往往 很 大 ， 因 此 就 要 求 
运用 各 种 各 样 繁复 的 索引 技术 。 另 外 ， 由 于 企业 的 高 层 管理 者 是 数据 仓库 服务 主要 面向 的 客 
户 ， 因 而 对 数据 查询 界面 的 友好 性 以 及 数据 表示 提出 了 更 高 的 要 求 。 

(4) 数据 仓库 数据 是 随时 间 不 断 变化 的 

对 应 用 而 言 ， 数 据 仓 库 中 的 数据 是 不 可 更 新 的 ， 但 并 不 意味 着 数据 进入 到 数据 仓库 以 后 
就 永远 不 变 ， 而 是 数据 仓库 的 用 户 在 进行 分 析 处 理 时 没有 进行 数据 更 新 操作 。 数 据 仓库 的 这 
一 特征 主要 有 以 下 三 方面 的 表现 。 

首先 ， 随 着 时 间 的 改变 ， 新 的 数据 内 容 将 被 增加 到 数据 仓库 里 。 数 据 仓库 系统 将 捕捉 
OLTP 数 据 库 中 变化 的 数据 ， 生 成 OLTP 数 据 库 快 照 ， 数 据 经 过 统一 集成 后 不 断 地 追加 到 数据 
仓库 中 ; 捕捉 到 的 新 的 变化 数据 以 新 的 数据 库 快 照 形式 增加 到 数据 仓库 中 ， 而 非 对 先前 的 数 
据 库 快照 进行 修改 ， 先 前 已 经 获取 的 数据 库 快 照 是 不 再 变化 的 。 

其 次 ,数据 仓库 会 根据 时 间 的 变化 将 旧 的 数据 内 容 逐 渐 删 除 。 数 据 仓库 中 的 数据 并 非 永 
远 存 在 于 数据 仓库 中 ， 与 数据 库 中 的 数据 一 样 ， 它 也 有 一 定 的 存储 期 限 ， 当 数据 超过 该 期 限 
时 ， 过 期 的 数据 将 会 被 自动 删 去 。 与 数据 库 不 同 的 是 ， 数 据 仓库 内 的 数据 时 限 要 长 得 多 。 为 
了 适应 DSS 进行 趋势 分 析 的 需求 ， 数 据 在 数据 仓库 中 一 般 需要 保存 较 长 时 间 ( 如 5 ~ 10 年 ) ， 
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而 在 操作 型 环境 中 ,数据 一 般 只 保存 60 ~ 90 天 。 

最 后 ， 数 据 仓库 中 含有 许多 与 时 间 相 关 的 综合 数据 ， 随 着 时 间 的 不 断 变化 ， 这 些 数 据 都 
需要 重新 进行 综合 。 如 经 常 需要 根据 时 间 段 来 综合 数据 ， 或 是 间隔 一 段 时 间 片 就 对 数据 展开 
抽样 等 。 为 此 ， 为 了 标明 数据 的 历史 时 期 ， 数 据 仓库 数据 的 码 键 都 要 包含 时 间 项 。 


3. 数据 集 市 


数据 仓库 的 工作 范围 和 成 本 通常 是 巨大 的 。 信 息 技术 部 门 必 须 对 所 有 的 用 户 站 在 全 企业 
的 角度 对 待 任何 一 次 决策 分 析 ， 这 样 会 以 巨大 的 金钱 与 时 间 为 代价 ， 这 是 许多 企业 不 愿意 或 
者 不 能 够 承担 的 。 为 了 应 对 这 种 情况 ， 一 种 提供 更 紧密 集成 的 、 拥 有 完整 图 形 接口 并 且 以 价 
格 优势 吸引 人 的 工具 一 一 数据 集 市 就 应 运 而 生 了 。 

数据 集 市 (Data Marts ) 是 一 种 更 小 、 更 集中 的 ， 具有 特定 应 用 的 ， 部 门 级 的 数据 仓库 ， 
可 以 按 业 务 的 分 类 来 组 织 数据 集 市 。 数 据 集 市 一 般 针 对 具有 战略 意义 的 应 用 或 者 是 具体 部 门 
级 的 应 用 ,包含 的 是 有 关 该 特定 业务 领域 的 数据 ， 如 人 力 资 源 、 财 务 、 销 售 、 市 场 等 。 数 据 
集 市 非常 灵活 ， 不 同 的 数据 集 市 可 以 分 布 在 不 同 的 物理 平台 上 ， 也 可 以 逻辑 地 分 布 于 同一 物 
理 平台 上 。 因 此 ， 数 据 集 市 可 以 独立 地 实施 ， 企 业 人 员 也 可 以 快速 获取 信息 。 由 于 数据 集 市 
的 结构 简单 ， 即 使 当 其 数据 增长 时 ， 管 理 也 较 容易 。 当 数据 集 市 中 加 入 了 越 来 越 多 的 主题 
时 ， 就 应 将 这 些 数 据 集 市 加 以 集成 ， 最 终 建立 起 一 种 结构 ， 即 构成 企业 级 数据 仓库 的 数据 。 
因此 ， 可 以 把 数据 仓库 作为 一 组 数据 集 市 来 实施 ， 每 次 实施 一 个 。 但 是 ， 在 实施 之 前 ， 应 该 
有 全 局 的 观点 ， 先 使 不 同 的 数据 集 市 中 的 数据 内 容 有 统一 的 数据 类 型 、 字 段 长 度 、 精 度 和 语 
义 ， 这 样 ， 就 可 以 使 数据 集 市 在 扩展 后 集成 为 全 企业 级 的 数据 仓库 了 。 如 果 采 用 这 种 方法 来 
实施 ， 数 据 集 市 就 是 整个 数据 仓库 系统 的 逻辑 子 集 。 

数据 集 市 的 特性 主要 有 : 四 规模 小 ; @@ 特 定 的 应 用 ; @ 面 向 部 门 ; @ 由 业务 部 门 定义 、 
设计 、 开 发 以 及 管理 和 维护 ; @ 快 速 实现 ; @ 价 格 低廉 ; @ 投 资 快速 回收 ; @@ 工 具 集 紧密 集 
成 ; @ 更 详细 的 、 预 先 存在 的 数据 仓库 的 摘要 子 集 ; @ 可 升级 到 完整 的 数据 仓库 。 


4. 数据 粒度 与 分 割 


数据 仓库 极为 重要 概念 之 一 是 粒度 。 粒 度 指 的 是 数据 仓库 中 数据 单位 所 保存 数据 的 细 化 
或 者 综合 程度 的 级 别 。 数 据 的 粒度 是 数据 仓库 设计 的 一 个 主要 方面 。 它 深刻 影响 着 存放 在 数 
据 仓 库 中 的 数据 量 的 大 小 和 数据 仓库 可 以 回答 的 查询 类 型 。 越 小 的 粒度 其 数据 的 细节 反映 程 
度 越 高 ， 综 合 程度 越 低 ， 这 样 就 能 回答 越 多 的 查询 种 类 。 相 反 ， 越 大 的 粒度 其 数据 的 细节 反 
映 程度 越 低 ， 综 合 程度 就 越 高 ， 只 能 回答 综合 性 的 问题 。 粒 度 并 不 是 越 大 或 者 越 小 就 好 ， 针 
对 不 同类 型 的 问题 ， 对 粒度 大 小 的 要 求 也 不 同 。 如 果 数 据 粒度 设计 得 不 合理 ， 就 会 造成 对 大 
量 细节 数据 进行 综合 并 计算 答案 ， 使 得 效率 变 得 十 分 低下 ; 或 者 有 时 需要 细节 数据 时 却 又 不 
能 满足 。 所 以 ， 要 在 查询 效率 和 回答 细节 问题 能 力 之 间 做 好 平衡 。 

因此 ， 多 重 粒度 在 数据 仓库 中 是 不 可 避免 的 ， 应 根据 查询 的 需求 合理 地 设计 数据 的 粒 
度 。 数 据 仓库 主要 是 面向 DSS 分 析 的 ， 只 有 极 少数 的 查询 涉及 到 细节 ， 其 他 绝 大 部 分 查询 都 
是 基于 一 定 程度 的 综合 数据 之 上 。 故 而 为 了 大 幅度 提高 绝 大 多 数 查 询 性 能 ， 应 该 把 大 粒度 数 
据 存储 在 快速 设备 ( 如 磁盘 ) 上 ， 而 把 小 粒度 数据 存储 在 低速 设备 如 磁带 ) 上 ,这样 即使 
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需要 对 细节 进行 查询 也 能 够 满足 。 

数据 仓库 中 的 男 一 重要 概念 是 分 割 。 它 是 指 把 数据 分 散 到 不 同 的 物理 单元 ， 从 而 可 以 分 
别处 理 ， 来 提高 数据 处 理 的 效率 。 通 常 把 数据 分 割 之 后 的 数据 单元 称 为 分 片 。 在 实际 分 析 处 
理 时 ， 对 于 存在 某 种 相关 性 的 数据 集合 的 分 析 是 极其 常见 的 ， 例 如 对 某 个 地 区 、 某 个 时 间或 
时 段 ， 又 或 者 特定 业务 范围 的 数据 的 分 析 等 。 毫 无 疑问 ， 将 这 些 具 有 某 种 相关 性 的 数据 组 织 
在 一 起 将 会 大 大 提高 效率 ， 因 此 ， 需 要 对 数据 进行 分 割 。 

数据 分 割 使 数据 仓库 的 开发 人 员 和 用 户 有 了 更 大 的 灵活 性 ， 可 以 按照 实际 情况 来 确定 分 
割 的 标准 。 通 常 可 以 根据 地 域 、 日 期 或 业务 范围 等 指标 来 进行 分 割 ， 也 可 以 根据 多 个 分 割 标 
准 的 组 合 来 加 以 分 割 。 一 般 分 割 标准 都 要 包含 日 期 项 ， 这 样 就 能 使 分 割 十 分 自然 且 均 匀 。 小 
单元 内 的 数据 在 分 割 之 后 ， 就 会 变 得 相对 独立 ， 加 快 处 理 速度 。 数 据 分 割 使 数据 的 索引 、 重 
组 、 重 构 、 恢 复 、 监 控 和 顺序 扫描 变 得 更 简单 。 

5. 元 数据 


与 传统 数据 库 中 的 数据 字典 类 似 ， 元 数据 ( metadata ) 是 数据 仓库 的 一 部 分 不 可 或 缺 的 
重要 数据 。 它 是 “关于 数据 的 数据 ”， 描 述 的 是 数据 仓库 中 数据 的 结构 、 内 容 、 码 以 及 索引 
等 。 在 数据 仓库 中 ， 元 数据 有 着 比 数据 字典 更 加 丰富 和 复杂 的 内 容 ， 主 要 有 两 种 元 数据 : 第 
一 种 元 数据 包含 了 所 有 原 数据 项 名 、 属 性 以 及 它 在 数据 仓库 中 的 转换 ， 它 是 为 了 从 操作 型 环 
境 向 数据 仓库 环境 转换 而 建立 的 ; 第 二 种 元 数据 称 为 DSS 元 数据 ， 是 在 数据 仓库 中 用 来 在 终 
端 用 户 的 多 维 商业 模型 以 及 前 端 工具 间 建 立 映 射 ， 一 般 是 为 了 开发 出 更 加 先进 的 决策 支持 工 
具 而 创建 的 。 

元 数据 在 数据 仓库 的 建造 以 及 运行 中 的 作用 极为 重要 ， 它 描述 了 数据 仓库 中 的 各 个 对 
象 ， 是 数据 仓库 的 核心 ， 遍 及 数据 仓库 的 各 个 方面 。 数 据 仓库 中 的 元 数据 的 主要 作用 有 : 定 
义 数 据 仓 库 中 有 什么 ;指明 数据 仓库 中 信息 的 内 容 及 位 置 ; 刻画 数据 的 抽取 和 转换 规则 ; 存 
储 和 数据 仓库 主题 相关 的 各 种 商业 信息 。 元 数据 是 整个 数据 仓库 运行 的 基础 ， 如 数据 的 修 
改 、 跟 踪 、 抽 取 、 装 入 和 综合 等 都 是 依赖 于 元 数据 的 。 故 而 ， 有 效 管理 数据 仓库 的 一 个 重要 
前 提 就 是 拥有 描述 能 力 强 、 内 容 完 善 的 元 数据 。 元 数据 可 分 为 四 类 : 关于 数据 源 的 元 数据 、 
关于 数据 模型 的 元 数据 、 关 于 数据 仓库 映射 的 元 数据 以 及 关于 数据 仓库 使 用 的 元 数据 。 

表 2.1 所 示 为 一 个 元 数据 的 例子 ， 它 定义 的 是 数据 仓库 中 的 一 个 表 。 


表 2.1 元 数据 例 表 

区 至 会 员 | 

ms | 主义 在 网 上 书店 购买 的 书籍 的 个 人 或 组 织 | 
| 物理 存储 DB.table ( 数据 库 表 ) | 

| 表 编 辑 程序 名 VALCSTMR ( 程序 名 ) | 


6. 数据 模型 


不 同 于 数据 库 的 是 ， 数 据 的 多 维 视图 是 数据 仓库 中 存储 的 数据 模型 ， 它 对 前 端 工具 、 数 
据 仓库 的 设计 和 OLAP 的 查询 引擎 有 直接 的 影响 。 

在 多 维 数据 模型 中 ， 有 一 部 分 由 一 组 提供 测量 值 上 下 文 关系 的 “ 维 ” 来 决定 的 数据 测 
量 值 ( 如 销售 量 、 产 量 、 利 润 等 ) 。 以 销售 量 为 例 ， 它 与 销售 时 间 、 销 售 区 域 和 产品 名 称 
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相关 ， 由 这 些 相关 的 维 惟一 地 决定 了 这 个 销售 测量 值 ( 如 2013 年 奥迪 在 中 国 的 销售 量 为 50 
万 ) 。 因 此 ， 将 数据 测量 值 存放 在 由 层次 的 维 构成 的 多 维 空间 所 构成 的 图 就 是 多 维 数据 视 
图 。 在 多 维 数据 模型 中 ， 还 可 以 对 一 个 或 多 个 维 做 集合 运算 ， 例 如 ， 按 省 份 和 季度 对 销量 进 
行 计 算 和 排序 ， 可 以 看 出 不 同 省 份 、 不 同 季度 的 销售 情况 。 一 般 情况 下 ， 时 间 维 对 决策 中 的 
许多 分 析 都 很 重要 ， 它 是 一 个 具有 特殊 意义 的 维度 。 

可 以 使 用 不 同 的 存储 机 制 以 及 表示 模式 来 实现 逻辑 上 的 多 维 数据 模型 。 一 般 使 用 的 是 星 
型 模型 、 雪 花 模型 、 星 网 模型 和 第 三 范式 等 多 维 数据 数据 模型 。 

(1 ) 星 型 模型 

星 型 模型 是 大 部 分 数据 仓库 经 常 采 用 的 一 种 模型 。 事 实 表 是 星 型 模式 的 核心 ， 其 他 的 维 
表 则 围绕 这 个 核心 表 呈现 星 型 分 布 。 维 表 只 与 事实 表 关 联 ， 与 其 他 维 表 则 没有 任何 联系 ， 每 
个 维 表 只 能 有 一 个 主 码 ， 且 该 主 码 同 时 作为 与 事实 表 连 接 的 外 码 被 放 在 事实 表 中 。 事 实 表 中 
存放 了 大 量 的 事实 数据 ， 且 非 规范 化 程度 非常 高 ， 如 在 相同 的 表 中 出 现 多 个 时 期 的 数据 。 描 
述 性 数据 存放 在 维 表 中 。 图 2.3 所 示 是 一 个 星 型 模式 实例 。 


订货 表 事实 表 产品 表 
订单 号 订单 号 地 区 名 称 
订货 日 期 | 销售 员 号 产品 名 称 
客户 号 | 一 | 产品 目录 
全 疡 表 产品 号 单价 
日 期 标识 
客户 号 | 地 区 名 称 
客户 名 称 数量 
客户 地 址 总 价 
日 期 表 
销售 员 表 ~ 日 期 标识 
销售 员 号 地 区 表 日 
销售 员 姓 名 地 区 名 称 月 
城市 省 别 年 


图 2.3” 星 型 模型 实例 

事实 表 中 有 大 量 的 记录 ， 而 维 表 中 则 只 有 较 少 的 记录 。 由 于 针对 各 个 维 作 了 大 量 的 预 处 
理 (按照 维 进行 预先 统计 、 分 类 和 排序 等 ) ， 星 型 模型 的 数据 存 取 速度 较 快 。 例 如 ， 预 先 根 
据 汽 车 的 型 号 、 销 售 地 区 以 及 时 间 进 行销 售 量 的 统计 ， 在 制作 报表 时 ， 速 度 就 会 加 快 。 

与 完全 规范 化 的 关系 设计 相 比 较 ， 星 型 模型 有 着 一 些 明显 的 差异 ， 它 使 用 大 量 的 非 规范 
化 数据 ， 以 潜在 的 存储 空间 为 代价 来 优化 速度 。 因 此 星 型 模型 存在 很 大 的 数据 元 余 ， 因 此 不 
适合 用 于 数据 量 大 的 情况 。 此 外 ， 星 型 模型 限制 了 事实 表 中 数量 属性 的 个 数 ， 当 业务 问题 发 
生变 化 ， 原 来 的 维 不 能 满足 要 求 时 ， 就 需要 增加 新 的 维 ， 这 种 维 的 变化 带 来 的 数据 变化 是 非 
常 复杂 且 耗 时 的 ， 因 为 事实 表 的 主键 是 由 所 有 维 表 的 主键 构成 的 。 

(2 ) 雪花 模型 

通过 将 星 型 模型 的 维 表 更 进一步 地 层次 化 便 得 到 了 雪花 模型 ， 将 原来 的 各 维 表 扩 展 成 小 
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的 事实 表 ， 从 而 产生 一 些 局 部 的 “层次 ”区 域 。 它 的 优点 是 使 得 数据 的 存储 量 极 大 限度 地 降 
低 了 ， 同 时 为 改善 了 查询 性 能 ， 它 还 将 较 小 的 维 表 联 合 在 了 一 起 。 

雪花 模型 的 这 种 方式 使 系统 更 进一步 专业 化 和 实用 化 ， 同 时 也 加 大 了 一 些 查询 的 复杂 性 
和 用 户 必 须 处 理 的 表 的 数量 ， 而 使 系统 的 通用 程度 下 降 。 数 据 仓库 利用 前 端 工 具 把 用 户 的 需 
求 转变 成 雪花 模型 的 物理 模式 ， 从 而 完成 对 数据 的 查询 。 

在 上 面 的 星 型 模型 中 ， 分 别 对 “产品 表 ” “日 期 表 ” “地 区 表 ” 进 行 扩展 ， 形 成 雪花 
模型 数据 ， 如 图 2.4 所 示 。 


订货 表 事实 表 产品 表 
订单 号 订单 号 地 区 名 称 
订货 日 期 销售 员 号 产品 名 称 产品 目录 
J 客户 号。 | | 产品 目录 个 | 目录 描述 
客户 表 产品 号 单价 
日 期 标识 
客户 号 | 一 人 
客户 名 称 We 日 期 表 六 
日 | 县 年 
销售 员 表 \ 月 年 
销售 员 号 地 区 表 二 年 
销售 员 姓名 地 区 名 称 
城市 省 别 “| 省 别 
图 2.4 ”雪花 模型 实例 
(3 ) 星 网 模型 


将 多 个 星 型 模型 连接 起 来 形成 的 网 状 结构 就 是 星 网 模型 。 通 过 相同 的 维 ( 如 时 间 维 ) ， 
多 个 星 网 模型 可 以 连接 多 个 事实 表 。 

(4 ) 第 三 范式 

范式 是 符合 某 一 种 级 别 的 关系 模式 的 集合 ， 是 关系 型 数据 库 的 构造 过 程 中 必须 遵循 的 
规则 。 目 前 关系 型 数据 库 主要 有 6 种 范式 : 第 一 范式 ( INF ) 、 第 二 范式 (2NF ) 、 第 三 范式 
(3NF ) 、 第 四 范式 (4NF ) 、 第 五 范式 (SNF ) 以 及 第 六 范式 ( 6NF ) 。 各 种 范式 之 间 的 联 
系 是 : 第 二 范式 是 在 第 一 范式 的 基础 上 建立 起 来 的 ， 比 第 一 范式 满足 更 多 的 条 件 ， 第 三 范式 
则 是 在 第 二 范式 的 基础 上 满足 更 多 的 条 件 建立 的 ， 以 此 类 推 便 得 到 各 类 范式 之 间 的 关系 。 一 
般 情况 下 ,数据 库 要 求 满足 第 三 范式 就 可 以 了 。 

第 三 范式 (3NF ) 指 的 是 这 样 一 种 关系 ， 即 关系 模式 中 的 所 有 非 主 属性 对 任何 候选 关键 
字 都 不 存在 传递 依赖 。 也 就 是 说 ， 第 三 范式 要 求 一 个 数据 库 表 不 包含 已 在 其 他 表 中 包含 的 非 
关键 字 信息 。 例 如 : 关系 Student(Sno,Sname,Dno.Dname,Location)， 关系 中 的 各 个 属性 分 别 表 
示 学 号 、 姓 名 、 系 院 号 、 系 院 名 以 及 系 院 地 址 。 其 中 Sno 为 关键 字 ， 其 余 各 个 非 主 属性 完全 
依赖 于 Sno 这 一 关键 字 ， 所 以 此 关系 属于 第 二 范式 。 关 系 Student 中 ， 对 属性 Dno，Dname 以 及 
Location 进 行 存储 、 插 入 、 删 除 以 及 修改 操作 时 会 出 现 重复 的 情况 ， 所 以 此 关系 存在 大 量 的 
宛 余 。 造 成 元 余 的 原因 是 此 关系 中 存在 传递 依赖 ， 即 Sno 一 Dno，Dno 一 Location， 而 由 于 没有 
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Dno-Sno， 所 以 Sno 对 Location 的 决定 是 通过 传递 依赖 实现 的 ， 换 名 话说，Sno 不 直接 决定 非 主 
属性 Location。 要 使 每 个 关系 模式 中 不 存在 传递 依赖 ， 则 可 以 将 关系 Student 分 为 ; 两 个 关系 : 
S(Sno,Sname,Dno) 和 D(Dno,Dname,Location)， 这 两 个 关系 属于 第 三 范式 。 


2.4.2 ”数据 仓库 体系 结构 

数据 仓库 的 不 同 部 分 组 合 在 一 起 就 组 成 了 数据 仓库 的 体系 结构 。 体 系 结构 提供 了 设计 开 
发 和 部 署 数据 仓库 的 整体 框架 结构 。 本 节 主 要 介绍 了 数据 仓库 的 数据 组 织 结 构 、 系 统 结构 以 
及 运行 结构 等 内 容 。 

1. 数据 仓库 的 数据 组 织 结构 

图 2.5 所 示 是 一 个 经 典 的 数据 仓库 的 数据 组 织 结构 图 。 


当前 细节 级 


"A A 和 
EE 
癌 
EY 
区 
浴 


第 溢 dl 


早期 细节 级 


个 ~ 


图 2.5 ”数据 仓库 数据 组 织 结构 图 
数据 在 数据 仓库 中 分 成 早期 细节 级 、 当 前 细节 级 、 轻 度 综合 级 以 及 高 度 综 合 级 四 个 级 
别 。 一 般 送 入 早期 细节 级 的 数据 都 是 老化 的 数据 ， 被 综合 之 后 的 源 数 据 ， 先 要 进入 到 当前 细 
节 级 ， 接 着 根据 具体 需要 选择 进一步 地 综合 从 而 进入 轻 度 综 合 级 甚至 高 度 综合 级 。 
2. 数据 仓库 系统 结构 
数据 仓库 系统 分 为 三 部 分 ， 分 别 是 数据 仓库 管理 、 数 据 仓库 以 及 分 析 工具 。 数 据 仓库 结 
构 如 图 2.6 所 示 。 


数据 仓库 
关系 数据 库 管理 工具 下 用 户 查 询 工具 
抽取 、 转 换 号 
装载 CMS 工具 
( 数据 文件 ) | 当前 数据 
元 数据 库 OLAP 工 具 
历史 数据 
其 他 数据 | 数据 建 模 工具 ES 
数据 源 仓库 管理 数据 仓库 分 析 工 具 


图 2.6 ”数据 仓库 系统 结构 图 
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数据 仓库 从 各 种 数据 源 中 获取 数据 。 数 据 源 可 以 是 企业 内 部 原 有 的 关系 数据 库 ， 也 可 以 
是 企业 外 部 的 第 三 方 市 场 调查 报告 或 者 各 种 文档 提供 的 数据 。 当 明确 数据 仓库 信息 是 什么 需 
求 之 后 ， 先 要 对 数据 进行 建 模 ， 接 着 是 确定 从 源 数据 到 数据 仓库 的 ETL 过 程 ， 最 后 进行 维 数 
划分 和 数据 仓库 的 物理 存储 结构 的 确定 。 依 靠 数据 仓库 管理 系统 (DWMS ) 来 完成 仓库 的 管 
理工 作 ,， 包括 对 数据 的 安 人 全、 备份、 归档 、 维 护 和 恢复 等 。 数 据 仓库 管理 系统 由 定义 部 件 、 
数据 获取 部 件 、 管 理 部 件 、 目 录 部 件 (元 数据 ) 、DBMS 部 件 组 成 。 

由 于 数据 仓库 的 数据 量 很 大 ， 为 了 能 够 从 数据 仓库 中 获得 能 够 辅助 决策 的 信息 ， 完 成 决 
策 支持 系统 的 多 项 要 求 ， 一 套 具 有 强大 功能 的 分 析 工 具 对 于 数据 仓库 来 说 必 不 可 少 。 目 前 分 
析 工 具 集 主要 包括 两 类 : 查询 工具 以 及 挖掘 工具 。 数 据 仓库 的 查询 通常 是 指 对 分 析 要 求 的 查 
询 ， 一 般 包含 可 视 化 工具 和 多 维 分 析 ( OLAP ) 工具 两 种 。 

3. 数据 仓库 运行 结构 

数据 仓库 应 用 的 运行 结构 是 经 典 的 客户 /服务 器 ( C/S ) 形式 。 数 据 仓 库 采 用 的 是 服务 器 
结构 的 形式 ， 服 务 器 端 需要 完成 多 种 辅助 决策 的 SQL 查询 、 复 杂 的 计算 以 及 各 类 综合 功能 
等 。 客 户 端 完成 的 工作 主要 包括 : 格式 化 查询 、 客 户 交互 、 结 果 显 示 以 及 报表 生成 等 。 现 
在 ,在 客户 与 数据 仓库 服务 器 之 间 增 加 一 个 多 维 数据 分 析 ( OLAP ) 服务 器 的 三 层 C/S 结 构 形 
式 越 来 越 普遍 ， 如 图 2.7 所 示 。 


客户 端 OLAP 服 务 器 数据 仓库 服务 器 
图 2.7 ”数据 仓库 应 用 的 三 层 C/S 结 构 
这 种 三 层 结构 形式 使 数据 仓库 应 用 工作 效率 更 高 ， 位 于 客户 端 和 数据 仓库 服务 器 之 间 的 


OLAP 服 务 器 对 原 客 户 端 和 数据 仓库 服务 器 的 部 分 工作 进行 了 集中 以 及 简化 ， 使 得 决策 支持 的 
服务 工作 被 加 强 与 规范 化 ,减少 了 系统 数据 的 传输 量 。 


2.4.3 数据 仓库 设计 与 实施 


面向 主题 的 、 集 成 的 、 不 可 更 新 的 以 及 随时 间 的 变化 不 断 变化 是 数据 仓库 的 特点 ， 这 
些 特 点 导致 传统 的 数据 库 开 发 所 使 用 的 设计 方法 并 不 适用 于 数据 仓库 的 系统 设计 。 不 同 于 传 
统 数据 库 开 发 的 是 : 数据 仓库 系统 的 开发 者 在 最 初 并 不 能 够 确切 了 解 到 用 户 的 明确 而 详细 的 
需求 ， 因 为 数据 仓库 系统 的 原始 需求 是 不 明确 的 ， 也 会 不 断 变 化 与 增加 ,用户 也 只 能 提供 部 
分 需求 或 者 是 需求 的 大 方向 ， 对 将 来 的 需求 更 是 无 法 确切 地 预料 。 为 此 ， 运 用 原型 法 对 数据 
仓库 进行 开发 是 一 种 合适 的 方法 。 原 型 法 是 一 种 先 从 构建 简单 的 基本 框架 入 手 ， 然 后 再 不 断 
丰富 完善 整个 系统 的 一 种 软件 开发 方法 。 然而， 数据 仓库 的 设计 并 不 等 同 于 寻常 意义 上 的 原 
型 法 ， 而 通常 是 由 数据 来 驱动 数据 仓库 的 设计 。 数 据 仓库 的 开发 主要 是 在 原 有 的 数据 库 系 统 
基础 上 开展 的 ， 它 的 目的 是 对 已 有 的 数据 库 中 的 数据 资源 进行 有 效 地 抽取 、 综 合 、 集 成 和 挖 
据 。 原 型 法 与 系统 生命 周期 法 的 主要 区 别 在 于 数据 仓库 的 开发 是 一 个 不 断 循环 、 反 馈 ， 从 而 
使 系统 不 断 增长 和 完善 的 过 程 。 图 2.8 形 象 地 说 明了 构建 数据 仓库 的 这 个 过 程 。 

虽然 如 此 ， 数 据 仓库 的 设计 并 非 毫 无 步 又 可 言 ， 其 步骤 如 图 2.9 所 示 。 
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数据 仓库 构建 是 个 
不 断 循环 的 过 程 


图 2.8 数据 仓库 构建 过 程 图 


数据 仓库 运行 与 维护 


概念 模型 设计 
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图 2.9 数据 仓库 设计 的 步骤 

需要 说 明 的 是 ， 数 据 仓库 设计 的 步骤 并 不 像 上 图 描述 的 那么 绝对 ， 决 策 人 员 与 开发 者 
在 数据 仓库 的 开发 过 程 中 要 至 始 至 终 共同 参与 和 密切 协作 ， 始 终 以 为 企业 开发 数据 仓库 为 目 
的 ， 保 持 灵 活 的 头脑 ， 合 理 安排 工作 。 

下 面 分 别 对 图 2.9 所 示 的 六 个 主要 设计 步骤 进行 介绍 。 

1. 概念 模型 设计 

概念 模型 是 概念 型 工具 ， 它 是 连接 主观 与 客观 之 间 的 桥梁 ， 是 为 一 定 的 目标 设计 系统 
以 及 收集 信息 而 服务 的 。 在 原 有 数据 库 的 基础 上 建立 一 个 较为 稳固 的 概念 模型 是 概念 模型 设 
计 阶 段 希望 获得 的 结果 。 通 过 集成 和 重组 原 有 数据 库 系统 中 的 数据 ， 最 终 形成 的 数据 集合 也 
就 是 数据 仓库 。 因 此 在 数据 仓库 的 概念 模型 设计 过 程 中 ， 如 何 进行 数据 仓库 系统 的 概念 模型 
设计 并 不 是 首要 任务 ， 而 是 应 该 先 分 析 和 理解 原 有 数据 库 系 统 ， 了 解 在 原 数据 库 系统 中 有 什 
么 、 数 据 如 何 组 织 及 分 布 等 。 首 先 ， 要 对 现 有 数据 库 中 的 内 容 进 行 一 个 全 面 而 清晰 的 了 解 ， 
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这 一 过 程 是 通过 查看 原来 数据 库 的 设计 文档 和 数据 字典 中 的 数据 库 关系 模式 来 实现 的 ; 其 
次 ,数据 仓库 是 面向 全 局 建立 的 概念 模型 ， 它 提供 了 一 个 统一 的 概念 视图 以 集成 来 自 各 个 面 
向 应 用 的 数据 库 的 数据 。 概 念 模型 的 设计 主要 是 在 概念 层次 上 进行 的 ， 所 以 在 进行 概念 模型 
建立 时 ,具体 的 技术 条 件 限制 并 不 在 考虑 范围 内 。 

概念 模型 设计 所 包含 的 工作 主要 是 确定 系统 边界 和 系统 所 包含 的 主题 域 。 

2. 技术 准备 工作 

管理 数据 仓库 的 技术 要 求 与 操作 型 环境 中 的 要 求 有 很 大 区 别 ， 而 且 两 者 考虑 的 方面 也 不 
同 。 通 常情 况 下 ， 都 是 从 操作 型 数据 中 将 分 析 型 数据 分 离开 ， 把 它们 放 于 数据 仓库 之 中 。 技 
术 评 估 和 技术 环境 准备 是 技术 准备 阶段 的 主要 工作 。 这 一 阶段 的 主要 成 果 应 有 : 软 硬 件 配置 
方案 、 技 术 评估 报告 以 及 系统 ( 软 、 硬 件 ) 总 体 设计 方案 。 

3. 逻辑 模型 设计 

逻辑 模型 设计 阶段 主要 进行 的 工作 有 : 分 析 主 题 域 ， 同 时 确定 当前 需要 装载 的 主题 ; 确 
定 粒度 层次 划分 以 及 数据 分 割 策略 ; 定义 关系 模式 和 记录 系统 。 通 过 定义 每 一 个 当前 要 装载 
的 主题 的 逻辑 来 实现 迎 辑 模型 设计 的 成 果 ， 且 在 元 数据 中 记录 相关 内 容 ， 其 中 包括 : 适当 的 
粒度 划分 以 及 表 划 分 、 定 义 合适 的 数据 来 源 、 合 理 的 数据 分 割 策略 等 "。 

4. 物理 模型 设计 


物理 模型 设计 的 主要 工作 是 对 数据 的 存储 结构 和 存放 位 置 进 行 确定 ， 并 明确 索引 策略 及 
存储 分 配 。 要 确保 数据 仓库 物理 模型 的 实现 ， 对 设计 人 员 应 有 以 下 几 方 面 的 要 求 。 

(1 ) 能 够 对 所 选用 的 数据 库 管理 系统 有 全 面 的 了 解 ， 确 定数 据 的 存储 结构 与 存 取 方 法 。 

(2 ) 能 够 对 影响 系统 时 间 和 空间 效率 的 平衡 和 优化 的 重要 依据 有 所 了 解 ， 诸 如 数据 使 
用 频 度 、 使 用 方法 、 数 据 规模 、 数 据 环境 和 响应 时 间 要 求 等 。 

(3 ) 确定 索引 策略 ， 索 引 一 旦 建立 就 几乎 不 需要 维护 ， 但 是 在 建立 专用 的 、 复 杂 的 索 
引 时 却 要 付出 一 定 的 代价 。 

(4 ) 确定 存储 分 配 及 数据 存放 位 置 ， 对 外 部 存储 设备 的 特性 ( 如 分 块 原则 、 块 大 小 的 
规定 、 设 备 的 IO 特性 等 ) 有 所 了 解 。 

5. 数据 仓库 生成 


在 两 个 环境 不 相同 的 记录 系统 之 间 建 立 一 个 接口 ， 通 过 这 个 接口 ， 才 能 将 原 数据 库 中 的 
数据 装载 到 数据 仓库 环境 中 。 该 接口 应 具备 的 功能 包括 : 有 效 扫描 现 有 记录 系统 ， 从 面向 应 
用 和 操作 的 环境 中 生成 完整 的 数据 ， 基 于 时 间 将 数据 进行 转换 、 清 洗 、 集 成 及 更 新 数据 。 在 
接口 设计 完成 之 后 ， 要 通过 运行 接口 程序 ， 将 数据 装 入 到 数据 仓库 中 去 。 

6. 数据 仓库 使 用 和 维护 

在 数据 仓库 建立 完成 ， 数 据 被 加 载 到 数据 仓库 之 后 ， 还 需要 对 数据 仓库 进行 后 续 的 使 用 
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进行 管理 和 维护 。 一 方面 ， 要 在 数据 仓库 中 建立 起 DSS 应 用 以 使 数据 仓库 中 的 数据 能 够 服务 
于 决策 分 析 ; 一 方面 ， 开 发 人 员 可 以 根据 用 户 的 使 用 情况 以 及 反馈 得 到 的 新 需求 ， 对 系统 作 
进一步 的 完善 ; 另 一 方面 ， 要 对 数据 仓库 中 的 一 些 日 常 活动 进行 管理 ， 例 如 对 粒度 级 别 进行 
调整 、 管 理 元 数据 、 对 数据 仓库 当前 的 具体 数据 进行 刷新 、 将 过 时 的 数据 转变 为 历史 数据 、 
不 再 使 用 的 数据 清除 掉 等 。 


2.4.4 数据 抽取 、 转 换 和 装载 


数据 仓库 中 的 数据 来 自 多 种 业务 数据 源 。 不 可 避免 地 ， 不 同 原始 数据 库 中 的 数据 来 源 、 
格式 是 不 一 样 的 ， 因 而 在 系统 实施 、 数 据 整合 过 程 中 会 出 现 一 系列 问题 ， 必 须 经 过 抽取 、 
转换 和 装载 的 过 程 ， 才 能 把 数据 库 中 的 数据 真正 存储 到 数据 仓库 中 去 ， 这 个 过 程 就 是 ETL 过 
程 。ETL 过 程 将 对 源 系 统 中 的 相关 数据 进行 改造 ， 使 它们 变 成 有 用 的 信息 存储 在 数据 仓库 
中 。 不 能 对 源 数据 进行 正确 地 抽取 、 清 洗 和 用 正确 的 格式 进行 整合 ， 就 没有 数据 仓库 中 的 战 
略 信息 ， 也 就 不 能 进行 数据 仓库 的 查询 处 理 功 能 。 


1. ETL 概 述 
ETL 是 用 来 实现 异 构 多 数据 源 的 数据 集成 的 工具 ， 是 数据 仓库 、 数 据 挖 气 和 商业 智能 等 
技术 的 基石 。 

ETL 工 具 的 功能 包括 : 

@ 数据 的 抽取 。 将 数据 从 不 同 的 网 络 、 不 同 的 操作 平台 、 不 同 的 数据 库 及 数据 格式 、 不 
同 的 应 用 中 抽取 出 来 。 

@ 数据 的 转换 。 数 据 转换 ( 数据 的 合并 、 江 总、 过滤 、 转 换 等 ) 、 重 新 格式 化 和 计算 数 
据 、 重 新 构建 关键 数据 以 及 总 结 与 定位 数据 。 


@ 数据 的 装载 。 将 数据 跨 网 络 、 操 作 平台 装载 到 目标 数据 库 中 。 

ETL 的 每 一 个 部 分 都 要 达到 一 个 重要 的 目标 ， 每 个 功能 都 非常 重要 。 由 于 源 系统 的 性 
质 ， 这 对 ETL 提 供 的 功能 也 很 具有 挑战 性 。 源 系统 种 类 繁多 ,彼此 差异 较 大 ， 通 常 ETL 需 要 
应 对 多 个 平台 上 的 操作 系统 ， 而 且 很 多 源 系 统 都 是 采用 过 时 技术 的 陈旧 应 用 系统 。 对 数据 仓 
库 而 言 ， 至 关 重 要 的 是 历史 数据 ， 这 些 数据 往往 是 不 被 保存 在 操作 型 系统 中 的 。 很 多 旧 系 统 
中 的 数据 质量 也 各 不 相同 ， 需 要 花费 大 量 的 时 间 进 行 处 理 。 源 系统 之 间 的 数据 普遍 缺乏 一 至 
性 ， 随 着 时 间 的 变化 ， 数 据 结构 也 可 能 会 发 生变 化 。 

在 整个 项 目 中 ，ETL 功 能 设计 、 测 试 和 部 署 不 同 处 理 过 程 会 占用 很 大 一 部 分 工作 量 。 源 
系统 的 性 质 和 复杂 程度 使 得 数据 抽取 本 身 很 复杂 ， 源 系统 的 原 数据 包含 源 系统 中 每 一 个 数据 
库 和 每 一 个 数据 结构 的 信息 。 在 数据 转换 过 程 中 ， 要 应 用 多 种 形式 的 转换 技术 ， 必 须 重 新 定 
义 内 部 数据 结构 ， 对 数据 重新 排序 ， 应 用 多 种 形式 的 转换 技术 ， 给 缺失 值 增加 新 的 默认 值 ， 
设计 性 能 优化 所 需要 的 所 有 聚集 。 最 初 的 装载 工作 可 能 会 往 数据 仓库 中 存 入 数 以 百 万 计 的 数 
据 行 ， 有 时 可 能 会 花 两 周 甚至 更 多 的 时 间 来 完成 最 初 的 物理 装载 。 总 之 ,数据 的 抽取 、 转 
换 、 装 载 都 是 费劲 且 耗 时 的 工作 。 

ETL 过 程 的 主要 步骤 如 图 2.10 所 示 。 
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事实 表 的 ETL 


维度 表 的 ETL 

为 所 有 的 数据 装载 编写 规程 
组 织 数据 缓存 区 域 和 检测 工具 
为 聚集 表 制 定 计划 

决定 数据 转换 和 清洗 规则 

建立 全 面 的 数据 抽取 规则 

决定 从 源 到 目标 数据 元 素 的 数据 映像 关系 

决定 所 有 的 数据 源 ， 包 括 内 部 和 外 部 

决定 数据 仓库 中 需要 的 所 有 目标 数据 


图 2.10 ”ETL 处 理 过 程 的 主要 步骤 


2. 数据 抽取 


数据 抽取 就 是 一 个 从 数据 源 中 抽取 数据 的 过 程 。 具 体 来 说 ， 就 是 搜索 整个 数据 源 ， 使 用 
某 些 标准 选择 合乎 要 求 的 数据 ， 并 把 这 些 数 据 传送 到 目标 文件 中 。 对 于 数据 仓库 来 说 ， 必 须 
根据 增 量 装载 工作 和 初始 完成 装载 的 变化 来 抽取 数据 。 对 于 操作 型 系统 来 说 ， 则 需要 一 次 性 
抽取 和 数据 转换 。 这 两 个 因素 增加 了 数据 抽取 工作 的 复杂 性 ， 而 且 ， 也 促使 在 内 部 编写 代码 
和 脚本 的 基础 上 ， 使 用 第 三 方 数据 抽取 工具 。 使 用 第 三 方 工 具 往 往 会 比 内 部 编程 更 贵 ， 但 是 
它们 记录 了 自己 的 元 数据 ， 另 一 方面 ， 内 部 编程 增加 了 维护 的 成 本 ， 当 源 系 统 变化 时 ， 也 很 
难 维护 。 而 第 三 方 的 工具 则 提供 内 在 的 灵活 性 ， 只 需要 改变 它 的 输入 参数 就 可 以 了 。 

数据 仓库 的 成 功 首先 取决 于 有 效 的 数据 抽取 ， 所 以 需要 对 数据 仓库 的 数据 抽取 策略 的 制 
定 给 予 特别 关注 。 数 据 抽取 的 要 点 包括 : 确认 数据 的 源 系统 及 结构 ; 针对 每 个 数据 源 定 义 抽 
取 过 程 (人 工 抽取 还 是 基于 工具 抽取 ) ， 确 定数 据 抽 取 的 频率 ， 表 示 抽 取 过 程 进程 的 时 间 窗 
口 ; 决定 抽取 任务 的 顺序 ; 决定 如 何 处 理 无 法 抽取 的 输入 记录 。 

通常 ， 源 系统 的 数据 是 以 两 种 方式 来 存放 的 : 当前 值 和 周期 性 的 状态 。 源 系统 中 的 大 
多 数 数据 都 是 当前 值 类 型 ， 这 里 存储 的 属性 值 代表 的 是 当前 时 刻 的 属性 值 ， 但 这 个 值 是 暂时 
的 ， 当 事务 发 生 时 ， 这 个 值 就 会 发 生变 化 。 周 期 性 的 状态 指 的 是 属性 值 存储 的 是 每 次 发 生变 
化 时 的 状态 。 对 于 这 个 类 型 的 操作 型 数据 ， 进 行 数据 抽取 工作 会 相对 容易 很 多 ， 因 为 其 变化 
的 历史 存储 在 源 系 统 本 身 当 中 。 

从 源 操作 系统 中 抽取 的 数据 主要 有 两 种 类 型 : 静态 数据 和 修正 数据 。 苦 态 数据 是 在 一 个 
给 定时 刻 捕获 的 数据 ， 就 像 是 相关 源 数据 在 某 个 特定 时 刻 的 快照 。 对 于 当前 数据 或 者 暂时 的 
数据 来 说 ， 这 个 捕获 过 程 包括 所 有 需要 的 暂时 数据 。 对 于 周期 性 数据 来 说 ， 这 一 数据 捕获 包 
括 每 一 个 源 操作 型 系统 中 可 以 获得 的 每 个 时 间 点 的 每 一 个 状态 或 者 事件 。 在 数据 仓库 的 初始 
装载 时 一 般 使 用 静态 数据 捕获 。 修 正 数据 也 称 为 追加 的 数据 捕获 ， 是 最 后 一 次 捕获 数据 后 的 
修正 。 修 正 数据 可 以 是 立刻 进行 的 ， 也 可 以 是 延缓 的 。 在 立即 型 的 数据 捕获 中 ， 有 三 种 数据 
抽取 的 方法 : 通过 交易 日 志 捕获 、 从 数据 库 触 发 器 中 捕获 或 者 从 源 应 用 程序 中 捕获 。 延 缓 的 
数据 抽取 有 两 种 方法 : 基于 日 期 和 时 间 标 记 的 捕获 和 通过 文件 的 比较 来 捕获 。 
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3. 数据 转换 

抽取 后 的 数据 是 没有 经 过 加 工 的 ， 这 些 数 据 的 质量 并 没有 像 数据 仓库 要 求 的 那样 好 ， 是 
不 能 直接 应 用 于 数据 仓库 的 ， 必 须 将 所 有 抽取 的 数据 转换 为 数据 仓库 可 以 使 用 的 数据 。 数 据 
转换 的 一 个 重要 任务 就 是 提高 数据 质量 ， 包 括 补充 已 抽取 数据 中 的 缺失 值 ， 去 除 脏 数 据 ， 修 
正 错 误 格式 等 。 

数据 转换 功能 包含 一 些 基本 的 任务 : 选择 、 分 离 /合并 、 转 化 、 汇 总 和 丰富 。 转 换 功 能 主 
要 完成 格式 修正 、 字 段 的 解码 、 计 算 值 和 导出 值 、 单 个 字段 的 分 离 、 信 息 的 合并 、 特 征集 合 
转化 、 度 量 单位 的 转化 、 日 期 (时间 转 化 、 汇 总 、 键 的 重新 构造 等 工作 。 

由 于 数据 转换 的 复杂 性 和 涉及 范围 广 ， 仅 靠 手 工 操作 是 难以 完成 的 ， 因 此 ， 使 用 转换 工 
具 是 一 种 有 效 的 方法 。 使 用 转换 工具 的 主要 优点 就 是 在 数据 转换 过 程 中 ， 转 换 参 数 和 规则 都 
会 作为 元 数据 被 工具 存储 起 来 ， 这 些 元 数据 就 会 成 为 数据 仓库 整个 元 数据 集合 的 一 部 分 ， 可 
以 被 其 他 部 分 共享 。 尽 管 转换 工具 的 理想 目标 是 排除 手工 的 方法 ,但 是 在 实际 工作 中 这 却 是 
不 可 能 实现 的 ， 即 使 有 最 精良 的 转换 工具 组 合 ， 也 要 准备 好 使 用 内 部 开发 的 程序 。 使 用 转换 
工具 和 手工 方法 两 者 结合 才 是 最 好 的 办 法 。 

4. 数据 装载 

数据 装载 是 指 在 将 数据 最 终 复制 到 数据 仓库 之 前 ， 把 它们 复制 到 一 个 中 间 位 置 。 数 据 仓 库 
的 装载 工作 需要 大 量 的 时 间 ， 理 想 状 况 下 ， 应 在 操作 系统 不 忙 时 进行 数据 的 复制 ， 并 确保 了 解 
自己 的 商务 及 其 支持 系统 。 确 保 已 经 完成 了 大 量 的 更 新 ， 否 则 不 应 进行 数据 的 移动 。 如 果 数 据 
仓库 中 的 数据 来 自 多 个 相互 关联 的 操作 系统 ， 就 应 该 确保 在 这 些 系统 同步 工作 时 移动 数据 。 

为 了 能 够 高 效 和 及 时 地 把 数据 装载 到 数据 仓库 中 ,一 般 都 要 利用 选 定 的 批量 装载 程序 。 批 量 
装载 程序 一 般 应 包括 的 功能 有 : 按 索 引 对 文件 进行 排序 、 数 据 类 型 转换 和 操作 以 及 数据 统计 。 

5. ETL 工 具 


ETL 工 具 所 要 完成 的 工作 主要 包括 三 个 方面 。 首 先 ， 在 数据 仓库 和 业务 系统 之 间 搭 建 起 
一 座 桥梁 ， 确 保 新 的 业务 数据 能 够 源源 不 断 地 进入 数据 仓库 。 其 次 ， 用 户 的 分 析 和 应 用 能 
够 反映 最 新 的 业务 动态 ,虽然 ETL 在 数据 仓库 架构 的 三 部 分 中 技术 含量 并 不 高 ， 但 其 涉及 到 
大 量 的 业务 逻辑 和 异 构 环境 ， 因 此 在 一 般 的 数据 仓库 项 目 中 ，ETL 部 分 往往 会 消耗 最 多 的 精 
力 。 最 后 ， 从 整体 角度 来 看 ，ETL 的 主要 作用 是 为 各 种 基于 数据 仓库 的 分 析 和 应 用 提供 统一 
的 数据 接口 ， 屏 项 复杂 的 业务 逻辑 ， 而 这 正 是 构建 数据 仓库 最 重要 的 意义 所 在 。ETL 工 具 的 
正确 选择 ， 可 以 从 多 方面 考虑 ， 如 ETL 对 平台 的 支持 、 对 数据 源 的 支持 、 数 据 转换 功能 、 管 
理 和 调度 功能 、 集 成 和 开放 性 、 对 元 数据 管理 等 功能 出 发 。 

随 着 各 种 应 用 系统 数据 量 的 飞速 增长 ， 以 及 对 业务 可 靠 性 等 要 求 的 不 断 提高 ， 人 们 对 数 
据 抽取 工具 的 要 求 也 在 不 断 提高 。 比 如 往往 要 求 对 几 十 ， 上 百 个 GB 的 数据 进行 抽取 、 转 换 和 
装载 工作 ， 这 种 挑战 毋庸 置疑 会 要 求 抽 取 工 具 对 高 性 能 的 硬件 和 主机 提供 更 多 支持 。 因 此 ， 
从 数据 抽取 工具 支持 的 平台 ,可 以 判断 出 它 能 否 胜 任 企业 的 环境 ， 目 前 主流 的 平台 包括 SUN 
Solaris、HP-UX、IBM AIX、AS/400、0S/390、Sco UNIX、Linux 和 Windows 等 。 

由 于 对 数据 抽取 的 要 求 越 来 越 高 以 及 专业 ETL 工 具 的 不 断 涌现 ，ETL 过 程 早 已 不 再 是 一 个 
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简单 的 小 程序 就 可 以 完成 的 。 目 前 主流 的 工具 都 采用 多 线程 、 分 布 式 、 负 载 均衡 、 集 中 管理 
等 高 性 能 、 高 可 靠 性 与 易 管理 和 扩展 的 多 层 体系 架构 。 

专业 的 ETL 厂 商 和 主流 工具 主要 有 : OWB ( Oracle Warehouse Builder ) 、ODI ( Oracle Data 
Integrator ) 、Informatic PowerCenter ( Informatica 公 司 ) 、AICloudETL 、 DataStage ( Ascential 
公司 ) 、Repository Explorer、Beeload 、Kettle 、DataSpider、ETL Automation ( NCR Teradata 公 
司 ) 、Data Integrator ( Business Objects 公 司 ) 和 DecisionStream ( Cognos 公 司 项 


6. ETL 展 望 


ETL 有 着 广阔 的 发 展 空间 ， 只 有 基于 数据 ETL， 数 据 仓库 、 数 据 挖 掘 以 及 商业 智能 等 技术 才 
能 更 好 地 实现 ， 从 而 为 企业 提供 决策 与 预测 的 基本 素材 。 伴 随 着 现实 需求 的 强劲 推动 ，ETL 逐 渐 
成 为 当前 信息 技术 最 活跃 的 研究 领域 之 一 ， 呈 现 出 通用 化 、 高 效 化 、 智 能 化 这 三 大 发 展 趋势 。 

企业 不 管 是 进行 当前 事务 处 理 ， 还 是 未 来 预测 ， 其 前 提 就 是 数据 ， 而 提供 综合 且 高 品 
的 数据 正 是 ETL 的 目的 ， 因 此 它 必然 要 为 众多 的 高 层 信息 系统 提供 服务 ， 成 为 企业 各 类 应 用 
的 基础 。 只 有 具备 良好 通用 性 的 ETL 软 件 才能 占领 未 来 市 场 ， 为 此 ， 对 未 来 的 ETL 软 件 提 出 以 
下 几 点 要 求 : 能 够 跨 网 络 、 跨 平台 使 用 ; 能 够 支持 尽 可 能 多 的 数据 库 管 理 系统 ( DBMS ) 、 
文件 系统 和 数据 采集 、 处 理 系 统 ; 具备 良好 的 可 扩展 性 ， 对 于 新 的 应 用 能 够 通过 预订 的 应 用 
程序 接口 ( API ) 或 标准 化 语言 接口 编程 ， 以 较 小 的 代价 实现 互 连 。 元 数据 的 标准 化 、 程 序 
逻辑 与 数据 的 统一 化 等 相关 技术 的 发 展 ， 为 ETI 提 高 通用 性 提供 了 的 动力 。 

由 于 针对 的 是 海量 数据 ， ETL 对 效率 极为 重视 ， 未 来 的 ETL 工 具 将 是 高 效 的 数据 集成 工 
具 。 高 度 的 可 伸缩 性 是 其 必 备 条 件 之 一 ， 不 管 是 在 昂贵 的 主机 系统 上 ， 还 是 在 工作 站 或 PC 机 
上 ， 都 能 够 运行 ETL。 为 了 能 够 真正 避免 重复 集成 ， 更 加 出 色 、 高 效 地 抽取 、 加 载 和 清洗 算 
法 ， 增 量 的 ETIL 算 法 将 成 为 主流 。 此 外 ， 采 用 并 行 算 法 、 集 群 计算 、 网 络 运算 的 ETL 工 具 将 领 
导 潮 流 ， 为 ETL 提 供 廉价 高 效 的 计算 资源 ， 提 高 计算 性 价 比 。 

高 度 的 智能 也 是 未 来 ETL 必 备 的 特征 之 一 。 此 处 将 广泛 应 用 专家 系统 、 机 器 学 习 、 神 经 
网 络 、 人 工 智能 ( AI ) 技术 等 领域 的 成 果 ， 由 机 器 智能 来 完成 数据 源 管理 、ETL 规 则 定制 、 
数据 质量 保证 等 工作 。 这 会 在 很 大 程度 上 减轻 了 用 户 的 工作 量 ， 很 多 枯燥 而 繁重 的 数据 集成 
工作 将 由 ETL 来 完成 。ETL 工 具 的 使 用 也 会 不 断 简化 ， 通 过 运用 智能 工具 ， 普 通用 户 也 能 轻松 
而 高 效 地 完成 数据 的 集成 与 清洗 工作 。 

决定 数据 仓库 能 否 获取 高 质量 数据 的 核心 是 ETL 工 具 ， 利 用 ETL 工 具 能 够 解决 各 种 应 用 数 
据 零散 分 布 、 品 质 低 下 的 现状 ， 将 各 种 异 构 信 息 根据 决策 需求 集中 到 数据 仓库 中 。 待 集成 多 
数据 源 的 异 构 性 成 为 ETL 最 大 的 挑战 ， 为 了 降低 系统 实现 的 难度 ， 将 数据 转化 的 逻辑 规范 和 
物理 实现 分 开 管理 ,通常 要 把 实施 ETL 过 程 划 分 为 模式 集成 与 数据 集成 两 个 阶段 。 


2.4.5 ”联机 分 析 处 理 


数据 仓库 系统 包括 数据 仓库 层 、 工 具 层 和 它们 之 间 的 相互 关系 。 数 据 仓库 系统 是 由 多 种 
技术 组 成 的 综合 体 ， 主 要 包括 数据 仓库 、 数 据 仓 库 管理 系统 以 及 数据 仓库 工具 这 三 个 部 分 。 
在 整个 系统 中 ， 数 据 仓库 是 信息 挖掘 的 基础 ， 处 于 核心 地 位 ; 数据 仓库 管理 系统 则 是 整个 系 
统 的 引擎 ， 承 担 管理 整个 系统 运转 的 责任 ;而 整个 系统 发 挥 作 用 的 关键 是 数据 仓库 工具 ， 数 
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据 仓 库 唯 有 采用 高 效 的 工具 才 可 以 真正 将 其 数据 仓库 的 作用 发 挥 出 来 。 

数据 仓库 的 目标 决定 了 一 般 的 查询 工具 无 法 满足 数据 仓库 真正 的 需求 ， 它 需要 拥有 分 析 
功能 更 加 强大 的 工具 。 此 处 的 查询 ， 并 不 只 是 对 记录 级 数据 的 查询 ( 可 能 会 存在 此 类 查询 ， 
但 绝 不 会 多 ) ， 更 多 的 是 对 分 析 结 果 ( 发 展 趋势 或 模式 总 结 ) 的 查询 ， 因 此 对 更 加 友好 的 表 
达 方 式 提出 要 求 。 例 如 ， 为 了 使 用 户 能 更 方便 、 更 清晰 、 更 直观 地 了 解 复杂 的 查询 结果 而 采 
用 各 种 图 形 和 报表 工具 。 数 据 仓库 中 最 主要 的 工具 是 分 析 型 工具 。 用 户 或 许 有 各 种 各 样 的 方 
式 从 数据 仓库 采 气 信息， 然而 大 致 上 都 可 以 分 为 验证 型 ( verification ) 和 发 掘 型 ( discovery ) 这 
两 种 模式 。 验 证 型 指 的 是 用 户 利用 各 种 工具 通过 反复 的 、 递 归 的 检索 查询 ， 对 自己 先前 提出 的 假 
设 进行 验证 或 是 否定 。 多 维 分 析 工 具 是 主要 的 验证 型 工具 。 联 机 分 析 处 理 ( OLAP ) 就 需要 利用 
多 维 分 析 工 具 。 与 验证 型 的 工具 不 同 ， 发 掘 型 的 工具 并 不 需要 事先 提出 假设 ， 而 是 直接 从 海量 数 
据 中 发 现 数据 模式 ， 从 而 预测 趋势 和 行为 。 发 掘 型 的 工具 主要 是 指数 据 挖掘 ( Data Mining ) 。 

接 下 来 ， 将 介绍 OLAP 的 相关 知识 ,数据 挖掘 的 相关 知识 将 在 第 6 章 进 行 详细 地 介绍 。 

1. OLAP 的 基本 概念 


OLAP 是 联机 分 析 处 理 ( On-Line Analytical Processing ) 的 简称 ， 是 由 关系 数据 库 之 父 
E.F.Codd 于 1993 年 提出 的 。 随 着 市 场 竞 争 的 日 趋 激 烈 ， 企 业 更 加 注重 决策 的 即时 性 和 准确 
性 ，E.F.Codd 认 为 终端 用 户 对 数据 库 查 询 分 析 的 需求 早已 不 满足 于 联机 事务 处 理 ( OLTP ) ,用 
户 分 析 的 需求 也 不 满足 于 SQL 对 大 数据 库 的 简单 查询 。 由 于 关系 数据 库 不 能 进行 大 量 计算 ， 所 
以 查询 的 结果 并 不 能 满足 决策 者 提出 的 需求 ， 导 致 用 户 的 决策 分 析 无 法 得 到 想 要 的 结果 。 

OLAP 委 员 会 对 联机 分 析 处 理 的 定义 为 : 从 原始 数据 中 转化 出 来 的 、 能 够 真实 反映 企业 多 
维特 性 ， 并 能 够 真正 为 用 户 所 理解 的 数据 称 为 信息 数据 。 联 机 分 析 处 理 是 能 够 获得 对 数据 更 
深入 了 解 的 一 类 软件 技术 ， 能 使 分 析 人 员 、 管 理 人 员 或 执行 人 员 对 信息 数据 从 多 种 角度 进行 
快速 、 交 互 、 一 致 地 存 取 。 目 前 所 指 的 联机 分 析 处 理 ， 主 要 是 指 对 数据 的 一 系列 交互 查询 的 
过 程 ， 这 些 查 询 过 程 要 求 对 数据 进行 多 层次 、 多 阶段 的 分 析 处 理 ， 以 获得 高 度 归 纳 的 信息 。 
从 作用 上 来 说 ， 联 机 分 析 处 理 是 一 种 快速 软件 技术 ， 能 够 实现 多 维 信息 共享 ， 针 对 特定 问题 
的 联机 数据 访问 和 分 析 。OLAP 也 可 以 说 是 多 维 数据 分 析 工 具 的 集合 ， 其 目标 是 满足 多 维 环境 
下 ， 对 特定 的 查询 和 报表 需求 或 决策 支持 ， 其 中 “ 维 ” 是 它 的 技术 核心 。 

OLAP 技 术 的 主要 特点 有 以 下 两 个 : 一 是 在 线性 ( On-line ) ， 表 现 为 能 快速 响应 和 交互 
操作 用 户 请 求 ;二 是 多 维 分 析 ( Multi-Analysis ) ， 即 是 OLAP 技 术 的 核心 所 在 。 

多 维 分 析 是 指 采用 切片 、 切 块 、 旋 转 等 各 种 分 析 动 作 ， 对 以 多 维 形式 组 织 起 来 的 数据 进 
行 诈 析 ， 使 最 终 用 户 对 数据 库 中 的 数据 进行 多 角度 、 多 侧面 的 观察 ， 从 而 更 深入 地 了 解 包含 
在 数据 中 的 信息 和 内 涵 。 多 维 分 析 方 式 能 够 减少 混淆 及 降低 错误 解释 的 出 现 ， 这 是 由 它 迎 合 
了 人 的 思维 模式 决定 的 。 多 维 分 析 的 基本 动作 主要 有 : 切片 、 切 块 、 上 卷 、 下 钻 及 旋转 。 

(1) 切片 (Slice) 

在 多 维 数组 中 选 定 一 个 二 维 子 集 的 动作 叫做 切片 ， 即 从 多 维 数组 ( 维 1， 维 2，…， 维 
an， 变量 ) 中 选 定 两 个 维 ， 维 i 和 维 j， 在 这 两 个 维 上 选取 某 一 区 间或 任意 维 成 员 ， 而 将 其 余 
的 维 都 取 定 一 个 维 成 员 ， 得 到 的 就 是 多 维 数组 在 维 i 和 维 j 上 的 一 个 二 维 子 集 。 这 个 二 维 子 集 
就 称 为 多 维 数组 在 维 i 和 维 j 上 的 一 个 切片 ， 表 示 为 : ( 维 i， 维 j， 变 量 ) 。 如 图 2.11 所 示 ， 选 
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定 两 个 维 ( “贷款 ”维度 和 “经 济 性 质 ” 维 度 ) ， 而 在 “时 间 ” 维 度 上 选 定 一 个 维 成 员 ( 如 
“第 1 季度 ” ) ， 就 得 到 了 “贷款 ”和 “经 济 性 质 ”两 个 维 上 的 一 个 切片 。 这 个 切片 表示 了 在 
第 一 季度 各 经 济 性 质 和 各 贷款 类 别 的 贷款 总 额 。 


度量 值 
三 > 
一 一 一 
TA 国有 | 9000 
第 !] 手 度 | oo| - | -| -| - “时 间 = 第 1 季度 ”人 < 
时 re om 四》 过、 
间 质 个 人 |6000 
第 3 季度 | 一 
其 他 | 5400 
第 4 季度 | - 


正常 A 可 疑 ER] 正常 六 可 疑 损失 
图 2.11 切片 

(2 ) 切 块 (Dice ) 

与 切片 类 似 。 在 多 维 数组 中 选 定 一 个 三 维 子 集 的 动作 叫做 切片 ， 即 选 定 多 维 数组 ( 维 
1， 维 2，…， 维 n， 变 量 ) 中 的 三 个 维 ， 维 i、 维 j 和 维 r。 在 这 三 个 维 上 选取 某 一 区 间或 任意 
维 成 员 ， 而 将 其 余 的 维 都 取 定 一 个 维 成 员 ， 则 得 到 多 维 数组 在 维 i、 维 j 和 维 rz 上 的 一 个 三 维 子 
集 ， 这 个 三 维 子 集 称 为 多 维 数组 在 维 i、 维 j 和 维 r 上 的 一 个 切 块 ， 表 示 为 : ( 维 i， 维 j， 维 r， 
变量 ) 。 如 图 2.12 所 示 ， 在 “时 间 ” 维 度 和 “贷款 ”维度 上 各 选 定 两 个 维 成 员 ( 如 “第 1 季 
度 ” 和 “第 2 季度 ”，“ 正 常 ” 和 “次 级 ”) ,在 “经 济 性 质 ” 维 度 选 定 三 个 维 成 员 ( “ 集 
体 ”“ 个 人 ”和 “其 他 ” ) 就 可 以 得 到 一 个 切 块 了 。 


(度量 值 =“ 正 常 ”or a 好 三 
“次 级 ” 区 
第 ] 季 度 | 5400 | … | | | And (时 间 =“ 第 1 季度 ” py 6000 
or“ 第 2 季度 ”) 
第 ?季度 | 6000 on | sa00 
时 时 
间 第 3 季度 | … 间 
第 ?季度 | 6000 
第 4 季度 
正常 ”次 级 关注 ”可疑 损失 de 
四 s 


图 2.12 切 块 
(3) 上 卷 (roll up) 
在 数据 立方 体 中 执行 聚集 操作 ， 通 过 在 维 级 别 中 上 升 或 通过 消除 某 个 或 某 些 维 来 观察 更 
概括 的 数据 。 沿 着 时 间 维 上 卷 ， 由 “季节 ”上 升 到 半年 ， 如 图 2.13 (a ) 所 示 ， 或 者 消除 “经 
济 性 质 ” 这 一 维度 ， 如 图 2.13 (b ) 所 示 ， 就 得 到 更 高 层次 的 汇总 数据 。 
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度量 值 

Bey 
2 沿 着 时 间 维 
上 卷 ， 术 
第 二 度 | go0 | | .| .| … 度 ” 上 升 到 


正常 次 级 关注 “可疑 损失 


贷款 
28400 
21000 
正常 ”次 级 关注 可 蜂拥 失 
贷 款 


(4) 下 钻 (Drill down ) 
通过 在 维 级 别 中 下 降 或 通过 引入 某 个 或 某 些 维 来 更 细致 地 观察 数据 ， 与 上 卷 正 好 相反 。 如 图 
2.14 所 示 ， 沿 着 时 间 维 下 钻 ， 就 得 到 了 每 个 月 的 各 经 济 性 质 各 贷款 类 型 的 贷款 更 具体 的 信息 。 


度量 值 
国有 
Ey 000 7 Ey 集体 
人 AM 人 
其 他 其 他 | 
第 ] 季 度 | 5400 | ... | .. | ... |... 1 月 | 2000 | | | 
沿 时 间 维 下 钻 2 | 1400 | 
时 第 ?季度 6000 | 
间 时 3 月 | 2000 
间 
第 3 季度 第 2 季度 | 6000 
第 3 季度 
第 4 季度 
正常 ”次 级 关注 ”可疑 o 损失 正常 ”次 级 关注 ”可疑 损失 
贷 款 维度 成 员 贷款 


图 2.14 下 钻 
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(5 ) 旋转 ( Rotate ) 

旋转 ， 即 改变 一 个 报告 或 页 面 显示 的 维 方 向 。 旋 转 有 以 下 几 种 方式 : 交换 行 和 列 、 把 某 
一 个 行 维 移 到 列 维 中 去 、 把 页 面 显示 中 的 一 个 维和 页 面 外 的 维 进行 交换 ( 令 其 成 为 新 的 行 或 
列 ) 。 如 图 2.15 所 示 ，, 将“ 时间 ”维和 “经 济 性 质 ” 维 进行 了 变换 。 


度量 值 a 
度 
发 国有 /9000 人 季度 
pa 第 ?季度 
WW 第 1 季度 
交换 “时 间 ” 。 昌 
第 1 季度 | 5400 和 “经 济 性 9000 
质 ” 轴 
Pe mp 
间 性 
第 3 季度 质 从 | om 
其 他 | 5400 
正常 ”次 级 关注 ”可疑 。 损失 正常 ”次 级 关注 ”可疑 损失 
贷款 维度 成 员 贷款 
图 2.15 旋转 


2. OLAP 特 征 及 衡量 标准 


OLAP 主 要 有 以 下 四 大 特征 : 

多 维 概念 视图 是 OLAP 最 显著 的 特征 。 在 OLAP 数 据 模型 中 ， 将 多 维 信息 抽象 为 一 个 立方 
体 ， 其 中 包括 维和 度量 。 维 是 人 们 观察 数据 的 特定 角度 ， 是 考虑 问题 时 的 一 类 属性 ， 而 度量 
表示 的 是 多 维 数组 的 取 值 。 多 维 结构 是 OLAP 的 核心 ， 在 用 户 面前 OLAP 展 现 的 是 一 幅 幅 的 多 
维 视 图 。 

快速 响应 用 户 的 分 析 需 求 是 OLAP 的 第 二 大 特征 。 一 般 认为 在 几 秒 内 对 用 户 的 分 析 请 求 做 
出 响应 的 OLAP 系 统 才 是 正常 的 。 如 果 响 应 时 间 超 过 30 秒 ， 用 户 可 能 就 会 不 耐烦 ， 导 致 失去 分 
析 主 线索 ， 从 而 影响 分 析 质 量 。 因 此 需要 更 多 诸如 大 量 的 事先 运算 、 专 门 的 数据 存储 格式 以 
及 特别 的 硬件 设计 等 技术 上 的 支持 。 

OLAP 的 第 三 个 特征 是 它 的 分 析 功能 。 与 应 用 有 关 的 任何 逻辑 分 析 和 统计 分 析 它 都 应 该 
能 处 理 。 用 户 的 数据 分 析 不 仅 能 在 OLAP 平 台 上 进行 ， 也 可 以 连接 到 其 他 工具 ， 如 成 本 分 析 工 
具 、 时 间 序 列 分 析 工 具 、 数 据 挖掘 和 意外 报警 等 外 部 分 析 工 具 上 。OLAP 的 基本 分 析 操 作 有 切 
片 、 切 块 、 下 钼 、 上 卷 及 旋转 。 

OLAP 的 第 四 个 特征 是 它 的 信息 性 。OLAP 系 统 能 够 及 时 地 获取 并 管理 大 容量 信息 ,无 论 
多 大 的 数据 量 以 及 数据 存储 在 什么 地 方 。 

E.F.Codd 给 出 了 十 二 条 基本 准则 ， 以 便 对 OLAP 产 品 进行 评价 。 

@ 透明 性 准则 ; 

@ OLAP 模 型 必须 提供 多 维 概念 视图 ; 

@ 存 取 能 力 准 则 ; 

@ 客户 /服务 器 体系 结构 ; 
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稳定 的 报表 性 能 ; 

维 的 等 同性 准则 ; 

多 用 户 支持 能 力 准则 ; 
动态 的 稀 跤 矩阵 处 理 准则 ; 
非 受 限制 的 路 维 操作 ; 
灵活 的 报表 生成 ; 
直观 的 数据 操纵 ; 

@@ 不 受 限 维 与 聚集 层次 。 

3. OLAP 服 务 器 类 型 


根据 存储 器 的 数据 存储 格式 ，OLAP 系 统 可 以 分 为 关系 型 OLAP ( Relational OLAP， 简称 
ROLAP ) 、 多 维 型 OLAP ( Multi-Dimensional OLAP， 简 称 MOLAP ) 以 及 混合 型 OLAP ( Hybrid 
OLAP， 简称 HOLAP ) 三 种 。 

关系 数据 库 是 关系 型 OLAP ( ROLAP ) 的 核心 ，ROLAP 将 用 作 分 析 的 多 维 数据 以 及 根据 
应 用 的 需要 有 选择 地 定义 一 批 实 视图 作为 表 存 储 在 其 中 。 只 选择 那些 计算 工作 量 比较 大 、 应 
用 频率 比较 高 的 查询 作为 实 视 图 ， 而 不 是 把 每 一 个 SQL 查 询 都 作为 实 视图 保存 。 为 提高 查询 
效率 ， 对 具有 针对 性 的 OLAP 服 务 器 的 查询 而 言 ， 优 先 选择 利用 已 经 计算 好 的 实 视 图 来 生成 查 
询 结果 。 这 是 一 种 介 于 关系 后 端 服务 器 和 用 户 前 端 工具 之 间 的 中 间 服 务 器 ， 同 时 用 作 ROLAP 
存储 器 的 RDBMS 也 针对 OLAP 作 相应 的 优化 。 它 比 MOLAP 技 术 具 有 更 大 的 可 规模 性 。 例 如 
Mircostrategy 的 DSS 和 Informix 的 Metacube 都 采用 了 ROLAP 方 法 。 

多 维 型 OLAP (MOLAP ) 是 在 物理 上 以 多 维 数组 的 形式 将 OLAP 分 析 所 用 到 的 多 维 数据 
进行 存储 ， 然 后 会 产生 “立方 体 ”的 结构 。 用 多 维 数组 的 下 标 值 或 下 标的 范围 映射 维 的 属性 
值 ， 总 结 数据 以 多 维 数组 的 值 的 形式 在 数组 的 单元 中 存储 。 由 于 MOLAP 从 物理 层 起 实现 ， 存 
储 结构 是 新 的 ， 因 此 又 称 为 物理 OLAP ( Physical OLAP ) 。 相 比较 而 言 ，ROLAP 的 物理 层 仍 采 
用 关系 数据 库 的 存储 结构 ， 主 要 借助 于 一 些 中 间 软 件 或 软件 工具 实现 ， 因 此 也 称 为 虚拟 OLAP 
(Virtual OLAP ) 。 

混合 型 OLAP ( HOLAP ) 的 提出 是 由 于 MOLAP 和 ROLAP 的 结构 完全 不 同 ， 各 自 的 优点 
和 缺点 也 不 同 ， 分 析 人 员 在 设计 OLAP 结 构 时 比较 困难 。HOLAP 则 结合 了 MOLAP 和 ROLAP 两 
种 结构 的 优点 。HOLAP 虽 然 还 没有 一 个 正式 的 定义 ,但 能 满足 用 户 各 种 复杂 的 分 析 请 求 ， 
HOLAP 结 构 不 是 将 MOLAP 与 ROLAP 的 结构 简单 组 合 ， 而 是 将 这 两 种 结构 技术 优点 有 机 地 结合 
了 起 来 。 例 如 微软 的 SQL Server 7.0 OLAP 服 务 就 支持 混合 OLAP 服 务 器 。 

4. OLAP 的 实施 


OLAP 要 对 来 自 基层 的 操作 数据 ( 由 数据 库 或 数据 仓库 提供 ) 进行 多 维 化 或 预 综合 处 理 ， 
因此 ， 它 是 三 层 客 户 / 服 务 器 结构 的 ， 这 与 传统 OLTP 软 件 的 两 层 客户 /服务 器 结构 有 所 不 同 。 

三 层 客户 /服务 器 的 结构 示意 图 如 图 2.16 所 示 。 它 的 主要 特点 是 把 应 用 逻辑 ( 或 业务 逻 
辑 ) 、DBMS 及 GUI 严格 区 分 开 。 复 杂 的 应 用 逻辑 主要 集中 存放 于 应 用 服务 器 上 ， 而 不 是 分 布 
于 网 络 上 众多 的 PC 机 上 ， 其 高 效 的 数据 存 取 由 服务 器 提供 ， 然 后 安排 后 台 进 行 处 理 和 报表 的 
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预 处 理 。 由 三 层 客户 /服务 器 结构 示意 图 可 看 出 ，OLAP 实 施 有 两 点 非常 关键 : 一 是 OLAP 服 务 
器 的 设计 ， 即 如 何 将 来 自 多 个 不 同 数据 源 或 数据 仓库 的 数据 进行 组 织 ; 二 是 OLAP 服 务 器 与 前 
端 软件 的 沟通 。 多 维 数据 分 析 就 是 连接 OLAP 服 务 器 与 前 端 软件 的 桥梁 ， 因 此 ，OLAP 服 务 器 
的 构建 必须 以 多 维 方式 进行 。 


基层 DB1 I ] 
数据 仓库 数据 仓库 综合 数据 前 应 
本 ”】 细节 数据 OLAP 服 务 器 ”软件 
不 
第 三 层 : 企业 服务 器 第 二 层 : 应 用 服务 器 第 一 层 : 客户 
共享 数据 存储 共享 局 部 数据 最 终 用 户 功能 
与 基层 运行 系统 的 连接 共享 应 用 逻辑 数据 显示 
个 人 数据 存储 
个 人 应 用 迎 辑 


图 2.16 ”OLAP 的 三 层 客户 /服务 器 逻辑 结构 图 


显然 ，OLAP 服 务 器 的 构建 基础 是 数据 仓库 或 基层 数据 库 ， 而 OLAP 的 对 象 是 面向 分 析 和 
管理 决策 人 员 的 。 决 策 人 员 一 般 对 综合 性 数据 更 为 关注 ， 使 得 在 数据 了 解 过 程 中 视角 能 够 更 
高 层次 以 及 更 具体 。 因 此 ， 数 据 仓库 中 综合 数据 的 组 织 以 及 前 端 用 户 的 多 维 数据 分 析 需 求 的 
满足 成 为 OLAP 服 务 器 的 设计 重点 。 

市 场 中 的 多 种 OLAP 软 件 工具 和 工具 集 都 是 以 多 维 数据 分 析 为 目的 ， 满 足 决策 或 多 维 环境 
的 特殊 的 查询 和 报告 需求 ， 这 是 它们 的 追求 。 它 们 基本 上 是 遵从 三 层 结构 的 。 

5. OLAP 产 品 介绍 及 选择 


按照 数据 存储 格式 ， 有 三 种 类 型 的 OLAP 产 品 ， 即 MOLAP、ROLAP 和 HOLAP?。 

其 中 ，MOLAP 产 品 主要 有 Cognos 的 Powerplay 、Hyperion 的 Essbase 和 微软 的 Analysis Service 
等 。 这 类 产品 从 关系 数据 库 ( 甚至 是 文本 文件 、Excel 文 件 ) 中 抽取 数据 ， 并 存储 在 自己 的 数 
据 库 中 。 与 Oracle、DB2 这 类 关系 数据 库 不 同 ， 这 种 数据 库 并 没有 标准 的 访问 接口 ， 而 是 基于 
专 有 格式 。 因 此 ， 这 些 产 品 实现 多 维 存储 的 原理 也 不 尽 相同 ， 但 其 数据 的 存放 大 致 是 以 编程 
语言 中 多 维 数组 的 方式 为 主 。 数 组 的 每 个 维 对 应 一 个 维度 ， 数 组 的 单元 格 中 存放 度量 值 。 维 
度 与 维 元 素 的 数量 在 极 大 程度 上 影响 多 维 数据 库 的 单元 格 数量 ， 因 此 ， 数 据 库 随 着 维度 的 增 
加 也 迅速 膨胀 ， 对 于 MOLAP 产 品 来 说 ， 多 维 存储 的 存储 空间 与 性 能 就 显得 极为 关键 。Essbase 
在 这 方面 做 了 很 多 优化 工作 ， 但 有 时 也 会 显得 过 于 复杂 ，Powerplay 则 采用 了 比较 简单 的 优化 
方法 ， 提 供 某 些 选项 ( 如 cube 分 区 等 ) 。 

提供 多 维 存储 是 OLAP 产 品 的 核心 功能 ， 除 此 之 外 ， 它 们 也 能 够 将 用 户 通过 前 端 发 出 的 
OLAP 访 问 操作 转换 为 对 数据 的 请 求 并 予以 返回 ， 因 此 ， 就 需要 考虑 有 哪些 前 端 工具 能 够 与 
OLAP 产 品 对 接 。 

Cognos 的 Powerplay 是 个 相对 封闭 的 产品 ， 不 能 用 其 他 前 端 来 访问 ， 它 有 自己 的 客户 端 和 
Web Explorer。 而 Hyperion 和 微软 则 与 Powerplay 不 同 ， 采 用 的 是 开放 式 接口 ， 第 三 方 可 以 利用 


加 http:Wwww.doc88.com/p-614824598430.html. 
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它们 提供 的 丰富 的 API 访 问 其 数据 库 。 事 实 上 ， 一 些 第 三 方 的 前 端 工具 与 OLAP 产 品 的 对 接 正 
是 基于 微软 开发 的 MDX 和 参与 的 XMLA ( XML for Analysis ) 规范 实现 的 ， 比 如 利用 BO Webl 连 接 
FEssbase。 微 软 的 服务 器 甚至 像 用 SQL 来 访问 关系 数据 库 一 样 ， 提 供 了 MDX 来 查询 多 维 数 据 。 

由 于 ROLAP 产 品 的 数据 是 存放 在 关系 数据 库 中 的 ， 因 此 它 对 关系 模型 的 要 求 就 显得 十 分 
严格 ， 比 如 为 了 定义 像 维度 、 度 量 、 事 实 表 、 聚 集 表 等 元 数据 ， 就 必须 遵循 星 型 模式 或 雪花 
模式 。 但 这 样 就 使 得 部 署 的 难度 增加 了 ， 并 且 如 果 聚 集 表 构建 得 不 好 ， 很 难保 证 最 后 的 访问 
性 能 。MicroStrategy 就 是 ROLAP 产 品 。 

目前 ， 也 有 很 多 混合 型 OLAP 产 品 ， 这 是 因为 ， 将 一 些 ROLAP 的 特性 增加 到 现 有 数据 库 
上 ， 对 那些 本 身 就 做 关系 数据 库 的 厂商 来 说 ， 并 不 是 一 件 难事 。 在 与 Essbase 终 止 OEM 合 同 之 
后 ，IBM 推 出 一 个 名 为 CubeViews 的 产品 ， 可 以 说 这 就 是 一 个 ROLAP 产 品 。 

OLAP 服 务 器 和 工具 可 以 根据 5 个 方面 来 进行 评价 : 特征 和 功能 、 访 问 性 能 、OLAP 服 务 引 
擎 、 管 理 以 及 全 局 结构 。 用 户 可 以 根据 这 5 个 方面 分 析 市 场 上 的 OLAP 产 品 ， 也 可 以 把 它们 作 
为 应 用 系统 中 的 OLAP 需 求 分 析 指 标 。 


和 2.5 练习 


1. 数据 存储 的 主要 模式 有 哪些 ? 

2. 新 兴 数 据 存储 系统 与 传统 关系 型 数据 存储 有 哪些 不 同 ? 
3. 海量 数据 存储 的 关键 技术 有 哪些 ? 

4. 数据 仓库 的 定义 和 特点 分 别 是 什么 ? 

5. 数据 仓库 与 数据 库 有 什么 不 同 ? 

6. 数据 集 市 的 定义 是 什么 ? 有 什么 特点 ? 

7. 什么 是 元 数据 ? 

8. 数据 仓库 设计 的 主要 步骤 有 哪些 ? 

9. ETL 处 理 的 主要 过 程 是 什么 ? 

10. 数据 仓库 存储 的 数据 模型 有 哪些 ? 说明 它们 的 不 同 点 。 
11. OLAP 技 术 用 于 数据 仓库 时 ， 如 何 提高 数据 仓库 的 分 析 能 力 。 
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NoSQL， 泛 指 非 关系 型 数据 库 。 相 对 于 传统 关系 型 数据 库 ，NoSQL 有 着 更 复杂 的 分 类 : 
key-value 数 据 库 、 文 档 数 据 库 、Column-oriented 数 据 库 以 及 图 存 数 据 库 等 。 这 些 类 型 的 数据 
库 能 够 更 好 地 适应 复杂 类 型 的 海量 数据 的 存储 。 本 章 介 绍 了 NoSQL 的 相关 概念 、 应 用 现状 以 
及 数据 一 致 性 理论 等 内 容 ， 并 对 key-value 数 据 库 、Column-oriented 数 据 库 、 图 存 数据 库 、 文 
档 数据 库 、NewSQL 数 据 库 以 及 分 布 式 缓存 系统 等 内 容 作 了 详细 的 介绍 。 


上 13.1 NoSQL 简 介 


本 节 对 NoSQL 的 概念 、 发 展 以 及 应 用 现状 等 内 容 进行 了 详细 的 介绍 ， 并 结合 传统 的 关系 
型 数据 库 ， 分 析 了 NoSQI 数 据 库 的 特点 。 


3.1.1 什么 是 NoSQL 


1998 年 ，Carlo Strozzi 提 出 NoSQL 一 词 ， 用 来 指 代 他 所 开发 的 一 个 没有 提供 SQL 功 能 的 轻 量 
级 关系 型 数据 库 。 顾 名 思 义 ， 此 时 的 NoSQL 可 以 被 认为 是 “No SQL” 的 合成 。 

2009 年 初 ，Johan Oskarsson 发 起 了 一 场 关于 开源 分 布 式 数据 库 的 讨论 ，Eric Evans 在 这 
次 讨论 中 再 次 提出 了 NoSQL 的 概念 。 此 时 ，NoSQL 主 要 指 代 那些 非 关 系 型 的 、 分 布 式 的 且 可 
不 遵循 ACID 原则 的 数据 存储 系统 。 这 里 的 ACID 是 指 Atomic ( 原子 性 ) 、Consistency ( 一 臻 
性 ) 、Isolation ( 隔离 性 ) 和 Durability (持久 性 ) 。 

同年 ， 在 亚特兰大 举行 的 “no: sql ( east ) ”讨论 会 ， 无 疑 又 推进 了 NoSQL 的 发 展 。 此 
时 ， 它 的 含义 已 经 不 仅仅 是 “No SQL” 这 么 简单 ， 而 演变 成 了 “Not Only SQL”， 即 “不 仅仅 
是 SQL”。 因 此 ，NoSQL 具 有 了 新 的 意义 : NoSQI 数 据 库 既 可 以 是 关系 型 数据 库 ， 也 可 以 是 非 
关系 型 数据 库 ， 它 可 以 根据 需要 选择 更 加 适用 的 数据 存储 类 型 。 

NoSQL 的 整体 框架 如 图 3.1 所 示 。 


第 3 章 NoSQL| 67 


图 3.1 NoSQL 的 整体 框架 


典型 的 NoSQI 数 据 库 主要 分 为 :Key_Value 
数据 库 、Column-oriented 数 据 库 、 图 存 数据 库 和 
文档 数据 库 ， 如 图 3.2 所 示 。 对 这 些 数据 库 的 具 
体 介绍 在 3.3~3.6 节 。 

(yy key-value 数 据 库 

key-value 存 储 是 最 常见 的 NoSQL 数 据 库存 
储 形式 。key-value 数 据 库存 储 的 优势 是 处 理 速 
度 非常 快 ， 它 的 缺点 是 只 能 通过 键 的 完全 一 致 查 
询 来 获取 数据 。 根 据 数据 的 保存 方式 ， 可 分 为 临 
时 性 、 永 久 性 和 两 者 兼 具 三 类 。 图 3.2 典型 的 NoSQL 分 类 

临时 性 键 值 存储 是 在 内 存 中 保存 数据 ， 可 以 进行 非常 快速 的 保存 和 读 取 处 理 ， 数 据 有 可 
能 丢失 ， 比 如 memcached。 永 久 性 键 值 存储 是 在 硬盘 上 保存 数据 ， 可 以 进行 非常 快速 的 保存 
和 读 取 处 理 ， 虽然 无 法 与 memcached 相 比 ， 但 数据 不 会 丢失 ， 比 如 Tokyo Tyrant、ROMA 等 。 两 
者 兼 具 的 键 值 存储 可 以 同时 在 内 存 和 硬盘 上 保存 数据 ， 进 行 非常 快 的 保存 和 读 取 处 理 ， 并 且 保 
存在 硬盘 上 的 数据 不 会 消失 ， 即 使 消失 也 可 以 恢复 ， 适 合 于 处 理 数组 类 型 的 数据 ， 比 如 Redis。 

(2 ) Column-oriented 数 据 库 

普通 的 关系 型 数据 库 都 是 以 行为 单位 来 存储 数据 的 ， 擅 长 进行 以 行为 单位 的 读 入 处 理 。 
而 NoSQL 的 列 数据 库 是 以 列 为 单位 来 存储 数据 的 ， 因 此 擅长 以 列 为 单位 来 读 取 数 据 。 行 数据 
库 可 以 对 少量 行进 行 读 取 和 更 新 ， 而 列 数据 库 可 以 对 大 量 行 少量 列 进 行 读 取 ， 同 时 对 所 有 行 
的 特定 列 进行 更 新 。Column-oriented 数 据 库 具有 高 扩展 性 ， 即 使 增加 数据 也 不 会 降低 相应 的 
处 理 速度 。 主要 产品 有 Bigtable， Apache Cassandra 等 。 

(3 ) 图 存 数据 库 

图 存 数据 库 主要 是 指 将 数据 以 图 的 方式 存储 。 实 体 被 作为 项 点 ， 实 体 之 间 的 关系 则 被 做 
为 边 。 比 如 有 三 个 实体 ，Steve Jobs 、Apple 和 Next， 会 有 两 个 “Founded by” 的 边 将 Apple 和 
Next 连 接 到 Steve Jobs。 图 存 数 据 库 主要 适用 于 关系 较 强 的 数据 ， 但 适用 范围 很 小 ， 因 为 很 少 
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有 操作 涉及 到 整个 图 。 主 要 产品 如 Neo4j 、GraphDB 、OrientDB 等 。 

(4 ) 文档 数据 库 

文档 数据 库 是 一 种 用 来 管理 文档 的 数据 库 ， 它 与 传统 数据 库 的 本 质 区 别 在 于 ， 其 信息 处 
理 基 本 单位 是 文档 ， 可 长 、 可 短 、 甚 至 可 以 无 结构 。 在 传统 数据 库 中 ， 信 息 是 可 以 被 分 割 的 
离散 数据 段 。 文 档 数据 库 与 文件 系统 的 主要 区 别 在 于 文档 数据 库 可 以 共享 相同 的 数据 ， 而 文 
件 系统 不 能 ， 同 时 ， 文 件 系统 比 文档 数据 库 的 数据 元 余 复杂 ， 会 占用 更 多 的 存储 空间 ， 更 难 
于 管理 维护 。 文 档 数据 库 与 关系 数据 库 的 主要 区 别 在 于 ， 文 档 数据 库 允 许 建立 不 同类 型 的 非 
结构 化 或 者 任意 格式 的 字段 ， 并 且 不 提供 完整 性 支持 。 但 是 它 与 关系 型 数据 库 并 不 是 相互 排 
斥 的 ， 它 们 之 间 可 以 相互 补充 、 扩 展 。 文 档 数据 库 的 两 个 典型 代表 是 CouchDB 和 MongoDB。 


3.1.2 ”什么 是 关系 型 数据 库 


1969 年 ，Edgar Frank Codd 发 表 一 篇 跨 时 代 的 论文 ， 首 次 提出 了 关系 数据 模型 的 概念 。 但 
由 于 论文 “IBM Research Report” 只 是 刊登 在 IBM 公 司 的 内 部 刊物 上 ， 所 以 反响 平平 。1970 
年 ， 他 再 次 发 表 了 题 为 “A Relational Model of Data for Large Shared Data banks” 的 论文 并 刊登 
在 《Communication of the ACM》 上 , 才 引 起 了 大 家 的 关注 。 

现今 关系 型 数据 库 的 基础 就 是 采用 由 Codd 提 出 的 关系 数据 模型 。 由 于 当时 的 硬件 性 能 低 
劣 、 处 理 速度 过 慢 ， 关 系 型 数据 库 迟 迟 没有 得 到 实际 应 用 。 随 着 硬件 性 能 的 提升 ， 加 之 具有 
使 用 简单 、 性 能 优越 等 优点 ， 关 系 型 数据 库 才 得 到 了 广泛 应 用 。 

关系 型 数据 库 是 建立 在 关系 模型 基础 上 的 数据 库 ， 借 助 于 集合 代数 等 数学 概念 和 方法 来 
处 理 数据 库 中 的 数据 。 即 把 所 有 的 数据 都 通过 行 和 列 的 二 元 表现 形式 表示 出 来 ， 给 人 更 容易 
理解 的 直观 感受 。 现 实 世界 中 的 各 种 实体 以 及 实体 之 间 的 各 种 联系 均 可 表示 为 关系 模型 。 

经 过 数 十 年 的 发 展 ， 关 系 型 数据 库 已 经 变 得 比较 成 熟 ， 目 前 市 场 上 主流 的 数据 库 都 为 关 
系 型 数据 库 ， 比 较 知名 的 有 : Sybase, Oracle, Informix, SQL Server 和 DB2 等 。 


3.1.3 NoSQL 数 据 库 与 关系 型 数据 库 的 比较 


NoSQL 数 据 库 和 传统 的 关系 型 数据 库 都 具备 各 自 的 特点 ， 本 节 从 优势 与 缺陷 、 应 用 现状 
等 方面 分 析 了 两 种 类 型 数据 库 的 特点 。 

1. 关系 型 数据 库 的 优势 

关系 型 数据 库 相 比 于 其 他 模型 的 数据 库 ， 有 以 下 几 点 优势 。 

(1 ) 容易 理解 。 相 对 于 网 状 、 层 次 等 其 他 模型 来 说 ， 关 系 模型 中 的 二 维 表 结 构 非 常 巾 
近 逻 辑 世界 ， 更 容易 理解 。 

(2 ) 便于 维护 。 由 于 丰富 的 完整 性 ， 使 数据 元 余 和 数据 不 一 致 的 概率 大 大 降低 。 

(3 ) 使 用 方便 。 操 作 关系 型 数据 库 时 ， 只 需 使 用 SQL 语言 在 逻辑 层面 进行 操作 即 可 。 

2. 关系 型 数据 库存 在 的 问题 

传统 的 关系 型 数据 库 具 有 高 稳定 型 、 操 作 简单 、 功 能 强大 、 性 能 良好 的 特点 ， 同 时 也 积 
累 了 大 量 成 功 的 应 用 案例 。 上 世纪 90 年 代 的 互联 网 领域 ,一 个 网 站 的 访问 量 用 单个 数据 库 就 
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已 经 足够 ， 而 且 当 时 静态 网 页 占 绝 大 多 数 ， 动 态 交 互 类 型 的 网 站 相对 较 少 。 

随 着 互联 网 中 Web 2.0 网 站 的 快速 发 展 , 微 博 、 论 坛 、 微 信 等 逐渐 成 为 引领 Web 领 域 的 潮流 
主角 。 在 应 对 这 些 超 大 规模 和 高 并 发 的 纯 动 态 网 站 时 ,传统 的 关系 型 数据 库 就 遇 到 了 很 多 难以 
克服 的 问题 。 同 时 ， 根 据 用 户 个 性 化 信息 ， 高 并 发 的 纯 动 态 网 站 一 般 可 以 实时 生成 动态 页 面 
和 提供 动态 信息 。 鉴 于 这 种 数据 库 高 并 发 读 写 的 特点 ， 它 基本 上 无 法 使 用 动态 页 面 的 静态 化 技 
术 ， 因 此 数据 库 并 发 负载 往往 会 非常 高 ， 一 般 会 达到 每 秒 上 万 次 的 读 写 请 求 。 然 而 关系 数据 库 只 
能 应 付 上 万 次 SQL 查询 ， 面 对 上 万 次 的 SQL 写 数据 请 求 ， 硬 盘 的 输入 /输出 端 就 显得 无 能 为 力 了 。 

此 外 ,在 以 下 两 方面 ， 关 系 型 数据 库 也 存在 问题 。 海量 数据 的 高 效率 存储 及 访问 : 对 于 
关系 型 数据 库 来 说 ，Web 2.0 网 站 的 用 户 每 天 都 会 产生 海量 的 动态 信息 ， 因 此 在 对 一 张 数 以 亿 
计 的 记录 表 进 行 SQL 查询 ， 效 率 是 极其 低下 的 。 数 据 库 的 高 可 用 性 和 高 可 扩展 性 : 由 于 Web 
架构 的 限制 ， 数 据 库 无 法 再 添加 硬件 和 服务 节点 来 扩展 性 能 和 负载 能 力 ， 尤 其 对 需要 提供 24 
小 时 不 间断 服务 的 网 站 来 说 ， 数 据 库 系统 的 升级 和 扩展 只 能 通过 停机 来 实现 ， 这 样 的 决定 将 
会 带 来 巨大 的 损失 。 

3. NoSQL 数 据 库 的 优势 


虽然 NoSQL 只 应 用 在 一 些 特定 的 领域 上 ， 但 它 足 以 弥补 关系 型 数据 库 的 缺陷 。NoSQL 的 
优势 主要 有 以 下 四 点 。 

(1) NoSQL 比 关系 型 数据 库 更 容易 扩散 。 虽 然 NoSQL 数 据 库 种 类 繁多 ， 但 由 于 它们 能 够 
去 掉 关 系 型 数据 库 的 关系 特性 ， 从 而 使 得 数据 之 间 无 关系 ， 这 样 就 非常 容易 扩展 ， 进 而 为 架 
构 层 面 带 来 了 可 扩展 性 。 

(2) NoSQL 比 一 般 数据 库 具 有 更 大 的 数据 量 ， 而 且 性 能 更 高 。 这 主要 得 益 于 它 的 无 关 
系 性 ， 数 据 库 的 结构 简单 。 比 如 在 针对 Web 2.0 的 交互 频繁 地 应 用 时 ， 由 于 MySQL 的 Cache 是 
大 粒度 的 ， 性 能 不 高 ， 故 MySQL 使 用 Query Cache 时 ， 每 次 表 更 新 Cache 就 失效 ; 然而 NoSQL 里 的 
Cache 是 记录 级 的 ， 是 一 种 细 粒 度 的 Cache， 所 以 就 这 个 层面 来 说 ，NoSQL 的 性 能 就 高 很 多 了 。 

(3 ) NoSQL 具 有 灵活 的 数据 模型 。NoSQL 不 需要 事先 为 要 存储 的 数据 建立 字段 ， 它 可 以 
随时 存储 自 定 义 的 数据 格式 。 而 在 关系 型 数据 库 里 ， 增 删 字段 却 是 一 件 非常 麻烦 的 事情 。 这 
一 点 在 Web 2.0 大 数据 时 代 更 为 明显 。 

(4) NoSQL 的 高 可 用 性 。 在 不 太 影响 其 他 性 能 的 情况 下 ，NoSQL 也 可 以 轻松 地 实现 高 可 
用 的 架构 。 如 Cassandra 模 型 和 HBase 模 型 ， 就 可 以 通过 复制 模型 来 实现 高 可 用 性 。 

4. NoSQL 数 据 库 的 实际 应 用 缺陷 


(1 ) 缺乏 强 有 力 的 商业 支持 。 目 前 NoSQI 数 据 库 绝 大 多 数 是 开源 项 目 ， 没 有 权威 的 数据 
库 厂商 提供 完整 的 服务 ， 在 使 用 NoSQL 产 品 时 ， 如 果 出 现 故 障 ， 就 只 能 依靠 自己 解决 ， 因 此 
在 这 方面 需要 承担 较 大 的 风险 。 

(2 ) 成 熟 度 不 高 。NoSQI 数 据 库 在 现实 当中 的 实际 应 用 较 少 ，NoSQL 的 产品 在 企业 中 也 
并 未 得 到 广泛 的 应 用 。 

(3 ) NoSQI 数 据 库 难 以 体现 实际 情况 。 由 于 NoSQI 数 据 库 不 存在 与 关系 型 数据 库 中 的 关 
系 模型 一 样 的 模型 ， 因 此 对 数据 库 的 设计 难以 体现 业务 的 实际 情况 ， 这 也 就 增加 了 数据 库 设 
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计 与 维护 的 难度 。 
5. NoSQL 数 据 库 应 用 现状 


NoSQI 数 据 库存 在 了 十 多 年 ， 有 很 多 成 功 案例 ， 受 欢迎 程度 近期 更 是 在 不 断 增加 ， 其 中 
原因 主要 有 以 下 两 个 方面 。 

(1 ) 随 着 社会 化 网 络 和 云 计算 的 发 展 ， 以 前 只 在 高 端 组 织 才 会 遇 到 的 一 些 问 题 ， 现 在 
已 经 普遍 存在 了 。 

(2 ) 现 有 的 方法 随 着 需求 一 起 扩展 ， 并 且 很 多 组 织 不 得 不 考虑 成 本 的 增加 ， 这 就 要 求 
它们 去 寻找 性 价 比 更 高 的 方案 。 


6. 关系 型 数据 库 与 NoSQL 数 据 库 结合 


分 布 式 存储 系统 更 适合 用 NoSQL 数 据 库 ， 现 有 的 Web 2.0 网 站 会 遇 到 的 问题 也 会 迎 刃 而 
解 。 但 是 NoSQL 数 据 库 在 实际 应 用 上 的 缺陷 又 让 用 户 难以 放心 。 这 使 很 多 开发 人 员 考 虑 将 关 
系 型 数据 库 与 NoSQI 数 据 库 相 结合 ， 在 强 一 致 性 和 高 可 用 性 场景 下 ， 采 用 ACID 模型 ， 而 在 高 
可 用 性 和 扩展 性 场景 下 ， 采 用 BASE 模 型 。 虽 然 NoSQL 数 据 库 可 以 对 关系 型 数据 库 在 性 能 和 扩 
展 性 上 进行 弥补 , 但 目前 NoSQL 数 据 库 还 难以 取代 关系 型 数据 库 ， 所 以 才 需 要 把 关系 型 数据 
库 和 NoSQI 数 据 库 结合 起 来 使 用 ， 各 取 所 长 。 

图 3.3 为 数据 库 的 系统 分 类 ， 从 中 可 更 好 地 了 解 它们 之 间 的 关系 。 


关系 型 数据 库 


分 析 型 Sisk Piccolo| | AsterData 。 ParAccel SAP Sybace IlQ 
IBM Netezza IBM InfoSphere HP Vertica 


GreenPlum Teradata EMC Info Bright 
[操作 型 Progress oracle D82 SQL Server 


Versant InterSystems 。 MeLogic MarkLogic 


( 数据库 级 存 系统 Memcached Microsoft Velocity ) 
图 3.3 ”数据 库 的 系统 分 类 


3.2 NoSQL 的 三 大 基石 
从 NoSQL 的 优势 来 看 ，NoSQL 的 优势 主要 得 益 于 它 在 海量 数据 管理 方面 的 高 性 能 。 而 海 
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量 数据 管理 所 涉及 到 的 存储 放置 策略 、 一 致 性 策略 、 计 算 方法 、 索 引 技 术 等 都 是 建立 在 数据 
一 致 性 理论 的 基础 之 上 的 。 数 据 一 致 性 理论 又 包括 : CAP 理 论 、BASE 模 型 和 最 终 一 致 性 ， 是 
NoSQL 的 三 大 基石 。 本 节 会 对 数据 一 致 性 理论 进行 详细 地 介绍 。 


3.2.1 CAP 


2000 年 ，Eric Brewer 在 ACM PODC 会 议 中 提出 了 CAP 理 
论 ， 该 理论 又 被 称 为 BrewerL 理 论 。“C”、“A”、“P” 分 
别 代 表 一 致 性 ( Consistency ) 、 可 用 性 ( Avaliability ) 、 分 隔 
容忍 性 ( Partition tolerance ) ， 如 图 3.4 所 示 。 


1. 一 致 性 ( Consistency ) 


在 分 布 式 计算 系统 中 ， 在 执行 过 某 项 操作 之 后 ， 所 有 节 
点 仍 具 有 相同 的 数据 ， 这 样 的 系统 被 认为 具有 一 致 性 。 

2. 可 用 性 ( Avaliability ) 

在 每 一 个 操作 之 后 ， 无 论 操作 成 功 或 者 失败 都 会 在 一 定 
时 间 内 返回 相应 结果 。 下 面 将 对 一 定时 间 内 和 返回 结果 进行 详细 解释 。 

一 定时 间 内 是 指 系 统 操作 之 后 的 结果 应 该 在 给 定 的 时 间 内 反馈 。 如 果 超 时 则 被 认为 不 可 
用 ， 或 者 操作 失败 。 比 如 进入 系统 时 进行 账号 登录 ， 在 输入 相应 的 登录 密码 之 后 ， 如 果 等 待 
时 间 过 长 ， 如 3 分 钟 ， 系 统 还 没有 反馈 登录 结果 ， 登 录 者 将 会 一 直 处 于 等 待 状态 ， 无 法 进行 其 
他 操作 。 

返回 结果 也 是 很 重要 的 因素 。 假 如 在 登录 系统 之 后 ， 结 果 是 出 现 “java.lang.error…… 人 
之 类 的 错误 信息 ， 这 对 于 登录 者 来 说 相当 于 没有 返回 结果 。 他 无 法 判断 自己 登录 的 状态 ， 是 
成 功 还 是 失败 ， 或 者 需要 重新 操作 。 

3. 分 隔 容忍 性 ( Partition tolerance ) 


分 隔 容 忍 性 可 以 理解 为 在 网 络 由 于 某 种 原因 被 分 隔 成 若干 个 孤立 的 区 域 ， 且 区 域 之 间 互 
不 相同 时 ， 仍 然 可 以 接受 请 求 。 当 然 也 有 一 些 人 将 其 理解 为 系统 中 任意 信息 的 丢失 或 失败 都 
不 会 影响 系统 的 继续 运作 。 

CAP 理 论 指出 ， 在 分 布 式 环境 下 设计 和 部 署 系统 时 ， 只 能 满足 上 面 三 个 特性 中 的 两 项 ， 
不 能 满足 全 部 三 项 。 所 以 , 设计 者 必须 在 三 个 特性 之 间 做 出 选择 。 

然而 ,分 布 式 系统 为 什么 不 能 同时 满足 CAP 理 论 的 三 个 特性 呢 ? 

在 正常 情况 下 ， 系 统 的 操作 步骤 如 下 : 

(1) A 将 Vo 更 新 为 数据 值 Vi 

(2) G1 将 消息 m 发 送 给 G,，，Gi 中 的 数据 Vo 更 新 为 V1。 

(3 ) B 读 取 到 G6, 中 的 数据 Vi。 

上 述 步骤 可 用 图 3.5 表 示 。 


图 3.4 CAP 理论 
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厂 G， G, 和 六 G, G, Yr G G, > 
| 2 本 | CA | 人 Ca) | 
1 时 加 
WW 从 YS 情 / 


(1) (2) (3) 
图 3.5 正常 情况 

假设 G, 和 6G, 分别 代表 网 络 中 的 两 个 节点 ，Vo 是 两 个 节点 上 存储 的 同一 数据 的 不 同 副本 ， 
A 和 B 分 别 是 G, 和 Gs 上 与 数据 交互 的 应 用 程序 。 

如 果 步 又 (2 ) 发 生 错 误 ， 即 6 的 消息 不 能 发 送 给 G6,， 此 时 B 读 取 到 的 就 不 是 更 新 的 数 
据 V， 这 样 就 无 法 满足 一 致 性 C。 如 果 采 用 一 些 技术 ， 如 阻塞 、 加 锁 、 集 中 控制 等 来 保证 数 
据 的 一 致 性 ， 那 么 必然 会 影响 到 可 用 性 A 和 分 隔 容忍 性 P。 即 使 对 步骤 ( 2 ) 加 上 一 个 同步 
消息 ， 尽 管 能 够 保证 B 读 取 到 数据 V,， 但 这 个 同步 操作 必定 消耗 一 定 的 时 间 ， 尤 其 在 节点 规 
模 成 百 上 千 的 时 候 ， 不 一 定 能 保证 可 用 性 。 也 就 是 说 ， 在 同步 的 情况 下 ， 只 能 满足 “C” 和 
“P”， 而 不 能 保证 “A” 一 定 满足 。 

在 如 图 3.6 的 例子 中 如 果 有 一 个 事务 组 a， 不 妨 假设 为 一 组 围绕 着 阻塞 数据 项 V 的 工作 单 
元 ，al 为 写 操作 ，a2 为 读 操作 。 在 一 个 local 的 系统 中 ， 可 以 利用 数据 库 中 的 简单 锁 机 制 隔离 
a2 中 的 读 操 作 ， 直 到 al 的 写成 功 完成 。 然 而 ， 在 分 布 式 的 模型 中 ,需要 考虑 到 G1 和 G5 节点 ， 
以 及 中 间 消 息 的 同步 可 以 完成 。 除 非 能 够 可 以 控制 2 何 时 发 生 ， 否 则 永远 无 法 保证 a2 可 以 读 
到 al 写 入 的 数据 。 所 有 加 入 阻塞 、 隔 离 、 中 央 化 的 管理 等 控制 方法 ， 使 影响 分 隔 容忍 性 和 al 
(A) 和 a2 (B ) 的 可 用 性 无 法 并 存 。 


(6) al: write 


Synch 


(Ge read 


< a 入 
图 3.6 ”P 与 A 的 选择 

CAP 中 三 种 特性 的 不 同 选择 如 表 3.1 所 示 。 

如 果 放弃 P， 即 使 将 所 有 与 事务 有 关 的 数据 放 到 一 台 机 器 上 ， 避 免 分 隔 带 来 的 负面 影 
响 ， 也 会 严重 影响 系统 的 扩展 性 。 

如 果 放 弃 A， 一 旦 遇 到 分 隔 容忍 故障 ， 受 影响 的 服务 需要 等 待 数据 一 致 ， 并 且 在 这 个 等 
待 的 时 间 段 内 ， 系 统 是 无 法 对 外 提供 服务 的 。 

如 果 放 弃 C， 这 里 放弃 的 一 致 性 指 的 是 放弃 数据 的 强 一 臻 性， 保留 最 终 一 致 性 。 


第 3 章 NoSOQL 


表 3.1 CAP 问题 的 不 同 选择 


序号 | 选择 特点 例子 
1 |C、A | 两 阶段 提交 、 缓 存 验 证 协议 | 传统 数据 库 、 集 群 数据 库 、LDAP、GFS 文 件 系统 
、P | 翡 观 加 锁 分 布 式 数据 库 、 分 布 式 加 锁 

现在 看 来 ， 如 果 理 解 CAP 理 论 只 是 指 多 个 数据 副本 之 间 读 写 一 致 性 的 问题 ， 那 么 ， 它 对 
关系 数据 库 与 NoSQL 数 据 库 来 讲 是 完全 一 样 的 ， 它 只 是 运行 在 分 布 式 环境 中 的 数据 管理 设施 
在 设计 读 写 一 致 性 问题 时 需要 遵循 的 一 个 原则 而 已 ， 却 并 不 是 NoSQL 数 据 库 具 有 优秀 的 水 平 
可 扩展 性 的 真正 原因 。 如 果 将 CAP 理 论 中 的 一 致 性 C 理 解 为 读 写 一 致 性 、 事 务 与 关联 操作 的 综 
合 ， 则 可 以 认为 关系 数据 库 选 择 了 C 与 A， 而 NoSQI 数 据 库 则 全 都 是 选择 了 A 与 P， 但 并 没有 选 
择 C 与 P 的 情况 存在 。 也 就 是 说 传统 关系 型 数据 管理 系统 注重 数据 的 强 一 致 性 ， 但 是 对 于 海量 
数据 的 分 布 式 存储 和 处 理 ， 它 的 性 能 不 能 满足 人 们 的 需求 ， 因 此 现在 许多 NoSQL 数 据 库 牺牲 
了 强 一 致 性 来 提高 性 能 。CAP 理 论 对 于 非 关 系 型 数据 库 的 设计 有 很 大 的 影响 ， 这 才 是 用 CAP 
理论 来 支持 NoSQL 数 据 库 设计 的 正确 认识 。 这 种 认识 正好 与 被 广泛 认同 的 NoSQL 的 另 一 个 理 
论 基础 相 吻合 ， 即 BASE。 在 3.2.2 节 中 将 会 详细 讲解 BASE。 

此 时 CAP 的 真正 含义 如 图 3.7 所 示 。 


NoSQL CAP only 
Disallows this areal 
100% 
BigTable 
Dynamo 
Databases 


Availability 


0% i > 
NN Transactions 
Eventual Single copy 
Consistency consistency 


Consistency 
图 3.7 CAP 的 真正 含义 
总 之 ，CAP 是 为 了 探索 适合 不 同 应 用 的 一 致 性 C 与 可 用 性 A 之 间 的 平衡 。 在 没有 发 生 分 隔 
时 ， 可 以 满足 完整 的 C 与 A， 以 及 完整 的 ACID 事务 支持 。 也 可 以 通过 牺牲 一 定 的 一 致 性 C,， 来 
获得 更 好 的 性 能 与 扩展 性 。 在 有 分 隔 发 生 时 ， 选 择 可 用 性 A， 集 中 关注 分 隔 的 恢复 。 需 要 分 
隔 前 、 中 、 后 期 的 处 理 策 略 ， 及 合适 的 补偿 处 理 机 制 。 


3.2.2 BASE 


BASE 的 含义 是 指 NoSQL 数 据 库 设计 可 以 通过 牺牲 一 定 的 数据 一 致 性 与 容忍 性 来 换取 高 性 
能 的 保持 甚至 是 提高 ， 即 NoSQI 数 据 库 都 应 该 是 牺牲 C 来 换取 P， 而 不 是 牺牲 A， 可 用 性 A 正 好 
是 所 有 NoSQL 数 据 库 都 普遍 追求 的 特性 。BASE 是 缩写 ， 说 明 如 下 。 
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@ 基本 可 用 ( Basically Available ) : 系统 能 够 基本 运行 、 一 直 提 供 服务 。 

@ 软 状 态 (Soft-state ) : 系统 不 要 求 一 直 保持 强 一 致 状态 。 

@ 最 终 一 致 性 (Eventual consistency ) : 系统 需要 在 某 一 时 刻 后 达到 一 致 性 要 求 。 

因此 ，BASE 可 以 定义 为 CAP 中 AP 的 衍生 。 在 单机 环境 下 ，ACID 是 数据 的 属性 ， 而 在 分 
布 式 环境 中 ，BASE 就 是 数据 的 属性 。BASE 思 想 主 要 强调 基本 的 可 用 性 ， 即 如 果 需 要 高 可 用 
性 ， 也 就 是 纯粹 的 高 性 能 ， 那 么 就 要 以 一 致 性 或 容忍 性 为 牺牲 。BASE 的 思想 在 性 能 方面 还 是 
有 潜力 可 挖 的 。 同 时 ，BASE 思 想 的 主要 实现 有 : 按 功 能 划分 数据 库 和 sharding 碎 片 。 

而 且 BASE 的 中 文 解释 为 碱 ，ACID 的 中 文 解释 为 酸 ， 所 以 BASE 与 ACID 是 完全 对 立 的 两 个 模型 。 

ACID 所 代表 的 含义 如 下 。 

@ 原子 性 ( Atomicity ) : 事务 中 所 有 操作 全 部 完成 或 者 全 部 不 完成 。 

@@ 一 致 性 ( Consistency ) : 事务 开始 或 者 结束 时 ， 数 据 库 应 该 处 于 一 致 状态 。 

@ 隔离 性 (Isolation ) : 假定 只 有 事务 它 自己 在 操作 数据 库 ， 且 彼此 之 间 并 不 知晓 。 

@ 持续 性 (Durability ) : 一 旦 事务 完成 ， 就 不 能 返回 。 

随 着 大 数据 时 代 的 到 来 ， 系 统 数据 ( 如 社会 计算 数据 ， 网 络 服务 数据 等 ) 不 断 增长 。 对 
于 数据 不 断 增长 的 系统 ， 它 们 对 可 用 性 及 分 隔 容忍 性 的 要 求 高 于 强 一 致 性 ， 并 且 很 难 满足 事 
务 所 要 求 的 ACID 特性 。 而 保证 ACID 特性 是 传统 关系 型 数据 库 中 事务 管理 的 重要 任务 ， 也 是 
恢复 和 并 发 控制 的 基本 单位 。 

ACID 与 BASE 的 区 别 如 表 3.2 所 示 。 

表 3.2 ”ACID 与 BASE 的 区 别 


E> 
TT 
隔离 性 可 用 性 优先 


采用 悲观 、 保 守 方 法 采用 乐观 方法 
难以 变化 适应 变化 、 更 简单 、 更 快 
3.2.3 ”最 终 一 致 性 


在 引入 最 终 一 致 性 之 前 先 来 介绍 强 一 致 性 和 弱 一 致 性 。 
@ 强 一 致 性 : 无 论 更 新 操作 是 在 哪个 数据 副本 上 执行 的 ， 之 后 的 所 有 的 读 操作 都 会 获得 


最 新 数据 。 

@ 弱 一 致 性 : 用 户 读 到 某 一 操作 对 系统 特定 数据 的 更 新 需要 一 段 时 间 ， 这 段 时 间 被 称 为 
“不 一 致 性 窗口 ”。 

@ 最 终 一 致 性 : 是 弱 一 致 性 的 一 种 特例 。 在 这 种 一 致 性 系统 下 ， 保 证 用 户 最 终 能 够 读 到 
某 操作 对 系统 特定 数据 的 更 新 。 


BASE 是 通过 牺牲 一 定 的 数据 一 致 性 与 容忍 性 来 换取 高 性 能 的 保持 甚至 提高 。 这 里 所 说 的 
牺牲 一 定 的 数据 一 致 性 并 不 是 完全 不 管 数据 的 一 致 性 ， 否 则 数据 将 出 现 混乱 ， 那 么 即使 系统 
可 用 性 再 高 、 分 布 式 再 好 也 会 没有 任何 利用 价值 。 牺 牲 一 致 性 ， 是 指 放弃 关系 型 数据 库 中 要 
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求 的 强 一 致 性 ， 只 要 系统 能 够 达到 最 终 一 致 性 即 可 。 
一 致 性 可 以 从 两 个 不 同 的 视角 来 看 ， 即 客户 端 和 服务 端 。 从 客户 端 角度 来 看 ， 一 致 性 指 
的 是 多 并 发 访问 时 更 新 过 的 数据 如 何 获取 的 问题 。 从 服务 端 角度 来 看 ， 一 致 性 指 的 是 更 新 如 
何 复制 分 布 到 整个 系统 ， 以 保证 数据 最 终 一 致 。 一 致 性 是 因为 有 并 发 读 写 才 出 现 的 问题 ， 因 
此 在 理解 一 致 性 的 问题 时 ， 一 定 要 结合 考虑 并 发 读 写 的 场景 。 从 客户 端 角度 来 看 ， 多 进程 并 
发 进行 访问 时 ， 更 新 过 的 数据 在 不 同 进程 如 何 获取 不 同 策略 ， 决 定 了 不 同 的 一 致 性 。 对 于 关 
系 型 数据 库 而 言 ， 要 求 更 新 过 的 数据 都 能 被 后 续 的 访问 看 到 ， 这 是 强 一 致 性 。 如 果 能 容忍 后 
续 的 部 分 或 者 全 部 都 访问 不 到 ， 则 就 表现 为 弱 一 致 性 。 如 果 要 求 一 段 时 间 后 够 能 访问 到 更 新 
后 的 数据 ， 则 为 最 终 一 致 性 。 
根据 更 新 数据 后 各 进程 访问 到 数据 的 方式 和 所 花 时 间 的 不 同 ， 最 终 一 致 性 模型 又 可 以 划 
分 为 以 下 五 种 模型 。 
@ 因果 一 致 性 : 假设 存在 A、B、C 三 个 相互 独立 的 进程 ， 并 对 数据 进行 操作 。 如 果 进 程 
A 在 更 新 数据 将 操作 后 通知 进程 B， 那 么 进程 B 将 读 取 A 更 新 的 数据 ， 并 一 次 写 入 ， 以 
保证 最 终结 果 的 一 致 性 。 在 遵守 最 终 一 致 性 规则 条 件 下 ， 系 统 不 保证 与 进程 A 无 因果 
关系 的 进程 C 一 定 能 够 读 取 该 更 新 操作 。 
@ “ 读 己 之 所 写 ” 一 致 性 : 当 某 用 户 更 新 数据 后 ， 他 自己 总 能 够 读 取 到 更 新 后 的 数据 ， 
而 且 绝 不 会 看 到 之 前 的 数据 。 但 是 其 他 用 户 读 取 数 据 时 ， 则 不 能 保证 能 够 读 取 到 最 新 
的 数据 。 
@ 会 话 一 致 性 : 这 是 “ 读 已 之 所 写 ” 一 致 性 模型 的 实用 版 本 ， 它 把 读 取 存 储 系统 的 进程 
限制 在 一 个 会 话 范 围 之 内 。 只 要 会 话 存在 ， 系 统 就 保证 “ 读 已 之 所 写 ” 一 致 性 。 也 就 
是 说 ， 提 交 更 新 操作 的 用 户 在 同一 会 话 里 读 取 数 据 时 能 够 保证 数据 是 最 新 的 。 
@ 单调 读 一 致 性 : 如 果 用 户 已 经 读 取 某 数值 ， 那 么 任何 后 续 操作 都 不 会 再 返回 到 该 数据 
之 前 的 值 。 
@ 单调 写 一 致 性 : 系统 保证 来 自 同一 个 进程 的 更 新 操作 按时 间 顺 序 执行 。 这 也 叫做 时 间 
轴 一 致 性 。 
以 上 五 种 最 终 一 致 性 模型 可 以 进行 组 合 ， 例 如 “ 读 已 之 所 写 ” 一 致 性 与 单调 读 一 致 性 就 
可 以 组 合 实现 ， 即 读 取 自 己 更 新 的 数据 并 且 一 旦 读 取 到 最 新 数据 将 不 会 再 读 取 之 前 的 数据 。 
从 实践 的 角度 来 看 ， 这 两 者 的 组 合 ， 对 于 此 架构 上 的 程序 开发 来 说 ,会 减少 额外 的 烦恼 。 
至 于 系统 选择 哪 一 种 一 致 性 模型 ， 或 者 是 哪 种 一 致 性 模型 的 组 合 取决 于 应 用 对 一 致 性 的 
需求 ， 而 所 选取 的 一 致 性 模型 会 影响 到 系统 处 理 用 户 请 求 及 对 副本 维护 技术 的 选择 。 
考虑 系统 一 致 性 的 需求 ， 分 布 式 存储 在 不 同 节点 的 数据 将 采用 不 同 的 数据 一 致 性 技术 。 
例如 : 在 关系 型 管理 系统 中 一 般 会 采用 悲观 方法 ( 如 加 锁 ) ， 而 在 一 些 强调 性 能 的 系统 中 则 
会 采用 乐观 方法 。 
从 服务 端 角 度 来 看 ， 如 何 尽 快 将 更 新 后 的 数据 分 布 到 整个 系统 ， 降 低 达 到 最 终 一 致 性 的 
时 间 窗 口 ， 是 提高 系统 的 可 用 度 和 用 户 体验 非常 重要 的 方面 。 这 里 主要 讲解 以 下 两 种 保证 最 
终 一 致 性 的 技术 : 类 似 于 Quorum 系 统 的 一 致 性 协议 实现 方法 一 一 Quorum 系 统 的 NRW 策 略 ; 
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两 阶段 提交 协议 。 
1. Quorum 系 统 的 NRW 策 略 


对 于 分 布 式 数据 系统 ，Quorum 系 统 的 一 致 性 协议 有 三 个 关键 值 。 

N: 数据 副本 数 。 

W: 写 人 数据 时 保证 写 完 成 所 需 的 最 小 节点 数 。 

R: 读 取 数 据 时 保证 读 完成 所 需 的 最 小 节点 数 。 

如 果 W+R>N， 即 写 的 节点 和 读 的 节点 存在 重 倒 ， 则 是 强 一 致 性 。 也 就 是 说 ， 在 该 策略 
中 ， 只 需要 保证 W+R>N， 就 可 以 保证 强 一 致 性 。 当 W+R>N 时 ， 会 产生 与 Quorum 类 似 的 效 
果 。 该 模型 中 的 读 ( 写 ) 延迟 由 最 慢 的 R(W) 副 本 决定 。 有 时 为 了 获得 较 高 的 性 能 和 较 小 的 延 
迟 ，R 与 W 之 和 可 能 小 于 N， 这 时 系统 不 能 保证 读 操作 能 获取 最 新 的 数据 。 

例如 : 当 N=3,W=2,R=2 时 ， 表 示 系 统 中 数据 副本 数 为 3， 在 进行 写 操作 时 ， 需 要 等 待 至 
少 两 个 副本 完成 了 该 写 操作 ， 系 统 才 会 返回 执行 成 功 的 状态 ， 对 于 读 操 作 ， 系 统 有 同样 的 特 
性 。 对 于 典型 的 一 主 一 备 同步 复制 的 关系 型 数据 库 ， 当 N=2,W=2,R=1 时 ， 则 无 论 读 的 是 主 库 
还 是 备 库 的 数据 ， 都 是 强 一 致 的 。 

对 于 典型 的 一 主 一 备 同步 复制 的 关系 型 数据 库 ， 当 N=2,W=1,R=1 时 ， 如 果 读 的 是 备 库 ， 
就 可 能 无 法 读 取 主 库 已 经 更 新 过 的 数据 ， 所 以 是 弱 一 致 性 。 

对 于 分 布 式 系统 ， 为 了 保证 高 可 用 性 ， 一 般 设置 N>3。 当 R 和 W 的 值 较 小 时 ， 会 影响 一 
致 性 ; 当 R 和 W 的 值 较 大 时 ,会 影响 性 能 。 因 此 ， 不 同 的 N,W,R 组 合 ， 是 在 可 用 性 和 一 致 性 之 
间 取 一 个 平衡 ， 以 适应 不 同 的 应 用 场景 。 

以 下 是 几 种 特殊 场景 : 

当 N=W,R=1 时 ， 系 统 对 写 操作 的 要 求 较 高 。 任 何 一 个 写 节点 失效 ， 都 会 导致 写 失 败 ， 同 
时 可 用 性 降低 。 但 是 由 于 数据 分 布 的 N 个 节点 是 同步 写 和 的， 因此 可 以 保证 强 一 致 性 。 

当 N=R,W=1 时 ， 系 统 对 读 操 作 较 高 。 但 只 需要 一 个 节点 写 人 成 功 即 可 ， 写 性 能 和 可 用 
性 都 比较 高 。 若 N 个 节点 中 有 节点 发 生 故 障 ， 那么 读 操作 将 不 能 完成 。 这 种 情况 下 ， 如 果 
W<(N+1) = 2， 并 且 写 入 的 节点 不 重 倒 的话， 则 会 存在 写 冲突 。 

当 R=(N+1) 2，W=(N+1) :2 时 ， 系 统 兼顾 了 性 能 和 可 用 性 ， 在 读 与 写 之 间 取 得 平衡 。 
Dynamo 系 统 默 认 设置 就 是 这 种 ， 即 N=3.W=2.R=2。 

2. 两 阶段 提交 协议 


两 阶段 提交 协议 (Two-phase Commitment Protocal 2PC 协 议 ) 可 以 保证 数据 的 强 一 致 
性 。 它 把 本 地 原子 性 提交 行为 的 效果 扩展 到 分 布 式 事务 ， 保 证 了 分 布 式 事务 提交 的 原子 性 ， 
并 在 不 损坏 日 志 的 情况 下 ， 实 现 快速 故障 恢复 ， 提 高 分 布 式 数据 库 系 统 的 可 靠 性 。 

在 两 阶段 提交 协议 中 ,系统 一般 包 含 两 类 节点 ( 或 机 器 ) : 协调 者 ( Coordinator ) 和 参 
与 者 ( Participants ) 。 协 调 者 一 般 情况 下 在 一 个 系统 里 只 有 一 个 ， 而 系统 事务 参与 者 则 通常 
包含 多 个 ， 这 在 数据 存储 系统 中 可 以 理解 为 多 个 数据 副本 。 两 类 节点 之 间 的 关系 框架 如 图 3.8 
所 示 。 
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命令 
| lL l 
参与 者 参与 者 | …… 参与 者 
协调 者 ~ 
< CO Fe 
= 
[w]e 


图 3.8 ”协调 者 与 参与 者 之 间 的 关系 框架 


注意 : 一 般 情况 下 ， 只 有 协调 者 才 有 掌握 提交 或 撤销 事务 的 决定 权 ， 而 其 他 参与 者 各 自 
负责 在 其 本 地 数据 库 中 执行 写 操作 ， 并 向 协调 者 提出 撤销 或 提交 子 事务 的 意向 。 但 是 在 两 阶 
段 提交 协议 中 ， 允 许 参与 者 单方 面 撤销 事务 。 一 旦 参与 者 确定 了 提交 或 撤销 提议 ， 则 不 能 再 
更 改 它 的 提议 ， 并 且 ， 当 参与 者 处 于 就 绪 状 态 时 ， 根 据 协 调 者 发 出 的 消息 的 种 类 ， 参 与 者 可 
以 转换 为 提交 状态 或 撤销 状态 。 其 次 ， 协 调 者 依据 全 局 提交 规则 做 出 全 局 终止 决定 。 最 后 ， 
注意 协调 者 和 参与 者 可 能 进入 某 些 相 互 等 待 对 方 发 送 消息 的 状态 。 为 了 确保 它们 能 够 从 这 些 
状态 中 退出 并 终止 ， 要 使 用 定时 器 。 每 个 进程 进入 一 个 状态 时 都 要 设置 定时 器 。 如 果 所 期 待 
的 消息 在 定时 器 超时 之 前 没有 到 来 ， 定 时 器 向 进程 报警 ， 进 程 于 是 调用 它 自 己 的 超时 协议 。 

两 阶段 提交 协议 是 由 请 求 阶段 和 提交 阶段 两 个 阶段 组 成 。 图 3.9、 图 3.10 所 示 为 两 阶段 提 
交 协 议 活动 。 

阶段 1: 请 求 阶段 (commit-request phase， 或 称 表决 阶段 ) 

在 请 求 阶段 ， 协 调 者 将 通知 事务 参与 者 准备 提交 或 取消 事务 ， 然 后 进入 表决 过 程 。 在 表 
决 过 程 中 ， 参 与 者 将 告知 协调 者 自己 的 决策 : 同意 或 取消 。 同 意 的 话 ， 则 事务 参与 者 本 地 作 
业 执 行 成 功 ， 取 消 的 话 ， 则 事务 参与 者 本 地 作业 执行 故障 。 

阶段 2: 提交 阶段 (commit phase， 或 称 执行 阶段 ) 

在 提交 阶段 ， 协 调 者 将 根据 请 求 阶段 的 投票 结果 进行 决策 : 提交 或 取消 。 当 且 仅 当 所 有 
的 参与 者 同意 提交 事务 时 ， 协 调 者 才 通知 所 有 的 参与 者 提交 事务 ,否则 协调 者 将 通知 所 有 的 
参与 者 取消 事务 。 参 与 者 在 接收 到 协调 者 发 来 的 消息 后 将 执行 相应 的 操作 。 


(a) 成 功 (b) 失败 
图 3.9 两 阶段 提交 协议 1 
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准备 。 


写 abort 到 日 志 写 commit 到 日 志 


ACK 
图 3.10 ”两 阶段 提交 协议 2 

图 3.10 描 述 了 协调 者 和 参与 者 之 间 的 两 阶段 提交 协议 活动 。 这 里 参与 者 只 有 一 个 。 图 中 
椭圆 形 表示 状态 ， 虚 线 表示 协调 者 和 参与 者 之 间 的 消息 。 虚 线 上 的 标号 说 明了 消息 的 种 类 。 

两 阶段 提交 协议 最 大 的 缺点 在 于 它 是 通过 阻塞 完成 的 协议 ， 节 点 在 等 消息 的 时 候 处 于 阻 
塞 状 态 ， 节 点 中 其 他 进程 也 需要 等 待 阻 塞 进程 释放 资源 。 如 果 协 调 者 发 生 了 故障 ， 那 么 参与 
者 将 无 法 完成 事务 而 一 直 等 待 下 去 。 

如 果 参 与 者 同意 “提交 消息 ”给 协调 者 ， 但 此 时 协调 者 发 生 永 久 故障 ， 这 样 参与 者 将 会 
一 直 等 待 ， 导 致 节点 发 生 永久 阻塞 。 同 样 ， 当 协调 者 发 送 “ 请 求 提交 ”消息 给 参与 者 时 ， 如 
果 存 在 某 个 参与 者 发 生 永久 故障 ， 协 调 者 将 在 某 一 时 间 内 通知 其 他 参与 者 取消 该 事务 ， 不 会 
一 直 阻 塞 。 由 于 两 阶段 提交 协议 并 没有 容忍 机 制 ， 因 此 如 果 一 个 节点 发 生 故 障 ， 那 么 整个 事 
务 都 将 取消 ， 而 这 也 将 付出 较 大 的 代价 。 


写 end_of_trans 到 日 志 


上 3.3 key 一 value 数 据 库 


键 值 存储 是 最 常见 的 NoSQL 数 据 库 的 存储 形式 。 虽 然 它 的 处 理 速度 非常 快 ， 但 基本 上 只 
能 通过 键 的 完全 一 致 查询 获取 数据 。 根 据 数据 的 保存 方式 ， 键 值 存储 可 分 为 临时 性 、 永 久 性 
和 两 者 兼 具 3 种 。 这 里 将 详细 介绍 两 者 兼 具 的 键 值 存 储 一 Redis。 


3.3.1 Redis 


Redis 可 以 提供 多 种 语言 的 应 用 程序 编程 接口 (API ) ， 是 一 个 开源 的 、 可 基于 内 存 、 支 
持 网 络 、 使 用 ANSI C 语 言 编 写 的 ， 可 持久 化 的 日 志 型 key-value 数 据 库 。 
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与 Memcached 类 似 ， Redis 是 一 个 key-value 的 存储 系统 ， 但 它 支 持 相 对 更 多 的 value 类 
型 的 存储 ， 包 括 list ( 链表 ) 、string ( 字符 串 ) 、set ( 集合 ) 、zset ( sorted set 有 序 集合 ) 
和 hash ( 哈 希 类 型 ) 。 以 上 这 些 数据 类 型 支持 很 多 更 具 丰 富 性 的 原子 性 的 操作 ， 如 add/ 
remove 、push/pop 及 取 并 集 交 集 和 差 集 等 。Redis 的 数据 都 缓存 在 内 存 中 ， 以 便 提高 效率 , 与 
Memcached 不 同 的 是 ，Redis 会 周期 性 地 把 更 新 的 数据 写 入 到 磁盘 或 把 修改 操作 写 入 到 追加 的 
记录 文件 ， 并 以 此 为 基础 实现 master-slave ( 主 从 ) 同步 ?。 

Redis 支 持 主 从 同步 。 数据 可 以 从 主 服务 器 向 任意 数量 的 从 服务 器 上 同步 ， 从 服务 器 可 以 
是 关联 其 他 从 服务 器 的 主 服务 器 ， 这 使 得 Redis 可 执行 单 层 树 复制 。 从 盘 可 以 有 意 无 意 地 对 数据 
进行 写 操作 。 由 于 完全 实现 了 发 布 /订阅 机 制 ， 使 得 从 数据 库 在 任何 地 方 同步 树 时 ， 可 订阅 一 个 
频道 并 接收 主 服务 器 完整 的 消息 发 布 记录 。 同 步 对 读 取 操作 的 可 扩展 性 和 数据 元 余 很 有 帮助 。 

Redis 提 供 了 五 种 数据 类 型 string、hash 、list、set 和 zset ( sorted set ) 。 

1. string ( 字符 串 ) 


string ( 字符 串 ) 是 Redis 中 最 基本 的 数据 类 型 ， 也 是 其 余 四 种 数据 类 型 的 基础 ， 即 它们 都 
是 由 字符 串 类 型 组 成 的 。 一 个 Redis 字 符 串 可 以 包含 任何 种 类 型 的 数据 ， 比 如 JPEG 图 像 、 序 列 
化 的 Ruby 对 象 。 

2. Hash 


Hash ( 哈 希 类 型 ) 是 字符 串 字 段 和 字符 串 值 之 间 的 映射 ， 可 以 将 Hashes 类 型 看 成 具有 
String Key 和 String Value 的 map 容 器 。 该 类 型 适合 于 存储 值 对 象 的 信息 ， 将 一 个 对 象 存储 在 hash 
类 型 中 比 将 对 象 的 每 个 字段 存 成 单个 string 类 型 占用 的 内 存 更 少 ， 而 且 对 整个 对 象 的 存 取 操作 
更 加 简单 方便 。 

3. List 


Redis 列 表 (list ) 是 简单 的 字符 串 列 表 ， 实 际 上 是 使 用 双向 链表 的 方式 实现 的 。list ( 双 
向 链表 ) 的 主要 功能 是 pop、push、 取 得 一 个 范围 内 的 所 有 值 等 ，list 是 一 个 链表 结构 ， 在 
操作 中 是 把 key 理 解 为 链表 的 名 字 。 一 般 的 操作 是 向 列表 两 端 添加 、 删 除 以 及 获取 元 素 等 。 
Redis 列 表 访 问 元 素 的 特点 是 : 元 素 越 接近 列表 的 两 端 ， 获 取 该 元 素 的 速度 越 快 ， 若 通过 索引 
访问 元 素 ， 速 度 很 慢 ， 特 别 是 在 列表 很 长 的 情况 下 ; 若 需要 访问 队列 开头 或 结尾 的 前 若干 个 
元 素 ， 则 访问 数据 的 速度 与 队列 的 长 度 无 关 。 

4. Set 


Redis 集 合 (set ) 是 一 个 无 序 的 字符 串 集合 。 不 允许 相同 成 员 存在 是 Redis 集 合 的 特性 ， 
即 向 集合 中 添加 相同 的 元 素 ， 只 会 存在 一 个 元 素 ， 也 就 是 说 ， 集 合 中 的 元 素 存 在 互 异 性 。 集 
合 set 的 这 一 特性 使 得 在 向 集合 添加 元 素 的 过 程 中 ， 不 需要 检验 集合 中 是 否 已 经 存在 此 元 素 。 
利用 set 数 据 结构 可 以 存储 一 些 集合 性 的 数据 ， 还 可 以 实现 交集 、 并 集 以 及 差 集 等 运算 操作 。 

5. zset ( 排序 set ) 

zset ( 排序 set ) 与 set 类 似 ， 是 不 包含 相同 字符 串 的 集合 。 与 set 相 比 ，zset 增 加 了 一 个 权重 


@® http://baike.so.com/doc/5063975.html. 
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参数 ， 集 合 中 的 每 个 元 素 按照 权重 参数 进行 有 序 排 列 。 有 序 集合 zset 的 这 一 特性 使 得 对 集合 进 
行 添加 、 删 除 以 及 更 新 元 素 的 操作 速度 很 快 ， 而 且 对 有 序 集 合 的 中 间 元 素 的 访问 速度 也 是 非 
常 快 的 。 通常 ， 有 序 集合 被 用 来 索引 存储 在 Redis 中 的 数据 。 


有 3.4 Column-oriented 数 据 库 


普通 的 关系 型 数据 库 都 是 以 行为 单位 来 存储 数据 的 ， 擅 长 进行 以 行为 单位 的 读 入 处 理 ， 
而 NoSQL 的 列 数据 库 是 以 列 为 单位 来 存储 数据 的 ， 因 此 擅长 以 列 为 单位 读 取 数据 。 行 数据 库 
可 以 对 少量 行进 行 读 取 和 更 新 ， 而 列 数据 库 可 以 对 大 量 行 少量 列 进 行 读 取 ， 并 对 于 所 有 行 和 
特定 列 进行 同时 更 新 。Column-oriented 数 据 库 具有 高 扩展 性 ， 即 使 增加 数据 也 不 会 降低 相应 
的 处 理 速 度 。 主 要 产品 有 Bigtable 、Cassandra 和 HBase 等 。 


3.4.1 Bigtable 


Bigtable 是 Google 设 计 的 分 布 式 数据 存储 系统 ， 用 来 处 理 海量 数据 的 一 种 非 关系 型 的 数 
据 库 。Bigtable 是 非 关系 型 的 数据 库 ， 是 一 个 稀疏 的 、 分 布 式 的 、 持 久 化 存储 的 多 维度 排 
序 Map。Bigtable 的 设计 目的 是 可 靠 地 处 理 PB 级 别 的 数据 ， 并 且 能 够 部 署 到 上 千 台 机 器 上 。 
Bigtable 已 经 实现 的 目标 有 : 适用 性 广泛 、 可 扩展 、 高 性 能 和 高 可 用 性 。 目 前 Bigtable 已 经 在 
超过 60 个 Google 产 品 和 项 目 上 得 到 了 应 用 ， 其 中 就 包括 了 Google Analytics 、GoogleFinance、 
Orkut 和 GoogleEarth 等 。 不 同 的 产品 和 项 目 对 Bigtable 提 出 了 不 同 的 需求 ， 有 的 需要 高 吞吐 量 的 批 
处 理 ， 有 的 则 需要 及 时 响应 ， 然 后 快速 返回 数据 给 最 终 用 户 。 它 们 使 用 的 Bigtable 集 群 的 配置 也 
有 很 大 的 差异 ， 有 的 集群 只 有 几 台 服务 器 ， 有 的 则 需要 上 千 台 服务 器 、 存 储 几 百 TB 的 数据 ?。 

1. Bigtable 数 据 库 的 功能 

Bigtable 中 有 使 用 多 数据 库 的 实现 策略 ， 和 数据 库 在 很 多 方面 类 似 。 与 此 同时 ， 内 存 数据 
库 和 并 行 数据 库 已 经 具备 可 扩展 性 和 高 性 能 ， 但 Bigtable 数 据 库 却 提供 了 一 个 和 这 些 系统 完全 
不 一 样 的 接口 。Bigtable 数 据 库 不 支持 完整 的 关系 数据 模型 ， 但 它 为 客户 提供 了 一 个 更 简单 的 
数据 模型 ， 客 户 通 过 这 个 模型 可 以 动态 地 控制 数据 的 分 布 和 格式 。 数 据 的 下 标 是 行 和 列 的 名 
字 ， 名 字 可 以 是 任意 字符 串 。Bigtable 将 存储 的 数据 都 视 为 字符 串 ， 但 是 它 本 身 不 去 解释 这 些 
字符 串 ， 客 户 程序 通常 会 在 把 各 种 结构 化 或 者 半 结 构 化 的 数据 串 行 化 到 这 些 字符 串 里 。 通 过 
仔细 选择 数据 的 模式 ， 客 户 可 以 控制 数据 的 位 置 相 关 性 。 最 后 ， 通 过 Bigtable 的 模式 参数 来 决 
定数 据 是 存放 在 内 存 中 还 是 存放 在 硬盘 上 。 

2. Bigtable 数 据 库 的 特点 如 下 

@@ 适合 海量 PB 级 的 数据 。 

@ 支持 动态 伸缩 ， 扩 展 容易 。 

@@ 适合 读 操作 ， 不 适用 写 操作 。 


加。 http:Wbaike.baidu.com/view/3001038.htm?fr=aladdin. 
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@ 分 布 式 、 并 发 数据 处 理 ， 效 率 很 高 。 
@@ 传统 关系 数据 库 不 适用 。 
@ 适用 于 廉价 设备 。 


3. Bigtable 数 据 库 的 应 用 


Bigtable 数 据 库 已 在 很 多 方面 有 着 广泛 的 应 用 ， 比 如 ，Bigtable 数 据 库 已 为 谷歌 旗下 的 财 
经 、 地 图 、 搜 索 ， 视 频 共享 网 站 YouTube 以 及 博客 网 站 Blogger 等 提供 了 技术 上 的 支持 ?。 


3.4.2 Apache Cassandra 


Apache Cassandra 是 一 套 开源 分 布 式 Key-Value 存 储 系统 。 它 最 初 由 Facebook 开 发 ， 用 于 储 
存 特 别 大 的 数据 。 其 主要 特性 表现 在 三 个 方面 : 分 布 式 、 基 于 column 的 结构 化 和 高 可 扩展 性 。 

Cassandra 的 主要 特点 是 它 不 是 一 个 数据 库 ， 而 是 由 一 堆 数 据 库 节点 共同 构成 的 一 个 分 布 
式 网 络 服务 。 对 Cassandra 的 一 个 写 操作 ， 会 被 复制 到 其 他 节点 上 去 ; 对 Cassandra 的 读 操 作 ， 
会 被 路 由 到 某 个 节点 上 去 读 取 。 对 于 一 个 Cassandra 和 群集 来 说 ， 扩 展 性 能 是 比较 简单 的 事情 ， 
只 要 在 群集 里 添加 节点 就 可 以 了 。 

Cassandra 是 一 个 混合 型 的 非 关系 的 数据 库 ， 类 似 于 Google 的 BigTable， 其 主要 功能 比 
Dynomite ( 分 布 式 的 Key-Value 存 储 系统 ) 更 丰富 ,但 支持 度 却 不 如 文档 存储 MongoDB ( 介 于 
关系 数据 库 和 非 关系 数据 库 之 间 的 开源 产品 ， 是 非 关 系数 据 库 中 功能 最 丰富 ， 最 像 关 系数 据 
库 的 。 支 持 的 数据 结构 非常 松散 ， 采 用 类 似 json 的 bjson 格 式 ， 因 此 可 以 存储 比较 复杂 的 数据 
类 型 。 ) Cassandra 是 一 个 网 络 社交 云 计算 方面 理想 的 数据 库 。 以 Amazon 专 有 的 完全 分 布 式 的 
Dynamo 为 基础 ， 结 合 了 Google BigTable 基 于 列 族 ( Column Family ) 的 数据 模型 ，P2P 去 中 心 化 
的 存储 ， 很 多 方面 都 可 以 称 之 为 Dynamo 2.0。 

和 其 他 数据 库 比 较 ，Cassandra 的 突出 特点 如 下 。 

@ 模式 灵活 : 使 用 Cassandra 像 文档 存储 ， 用 户 不 必 提 前 解决 记录 中 的 字段 。 用 户 可 以 在 系 

统 运行 时 随意 的 添加 或 移 除 字段 。 这 是 一 个 惊人 的 效率 提升 ， 特 别 是 在 大 型 部 署 上 。 

@ 真正 的 可 扩展 性 : Cassandra 是 纯粹 意义 上 的 水 平 扩展 。 为 给 集群 添加 更 多 容量 ， 可 以 

指向 另 一 台电 脑 。 用 户 不 必 重 启 任何 进程 ,改变 应 用 查询 ， 或 手动 迁移 任何 数据 。 

@@ 多 数据 中 心 识别 : 用 户 可 以 调整 节点 布局 来 避免 某 一 个 数据 中 心 起 火 ， 一 个 备用 的 数 

据 中 心 将 至 少 有 每 条 记录 的 完全 副本 。 

@ 范围 查询 : 如 果 用 户 不 喜欢 全 部 的 键 值 查询 ， 则 可 以 设置 键 的 范围 来 查询 。 

@ 列表 数据 结构 : 在 混合 模式 下 可 以 将 超级 列 添加 到 5 维 。 对 于 每 个 用 户 的 索引 ， 这 是 

非常 方便 的 。 

@ 分 布 式 写 操作 : 可 以 在 任何 地 方 任何 时 间 集 中 读 或 写 任何 数据 ， 并 且 不 会 有 任何 单 点 失败 。 


3.4.3 HBase 
HBase 是 基于 Hadoop Distributed File System 的 一 个 开源 的 ， 采用 列 存储 模型 的 分 布 式 数据 


© http://baike.baidu.com/view/3001038.htm?fr=aladdin. 
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库 产 品 。 它 是 一 个 可 以 利用 Hadoop HDFS 作 为 其 文件 存储 系统 ， 提 供 高 可 靠 性 、 高 性 能 、 列 
存储 、 可 伸缩 以 及 实时 读 写 的 数据 库 系统 。 它 利用 Hadoop MapReduce 来 处 理 HBase 中 的 海量 
数据 ， 利 用 Zookeeper 作 为 协同 服务 。HBase 在 Hadoop Ecosystem 中 的 位 置 如 图 3.11 所 示 。 


The Hadoop Ecosystem 


Pig ( Data Flow ) 


MapReduce ( Job Scheduling/Execution System ) 


HBase (Column DB ) 


HDFS 
( Hadoop Distributed File System ) 


Zookeepr (Coordination ) 
Avro ( Serialization ) 


图 3.11 HBase 在 Hadoop Ecosystem 中 的 位 置 
HBase 中 表 的 特点 主要 表现 在 以 下 五 个 方面 ?。 
@ 大 : 单个 表 可 以 有 上 亿 行 ， 上 百 万 列 。 
@@ 面向 列 : 面向 列 ( 族 ) 的 存储 和 权限 控制 ， 列 ( 族 ) 独立 检索 。 


@ 稀疏 : 对 于 为 空 (null ) 的 列 ， 不 占用 存储 空间 。 因 此 ， 表 也 可 以 设计 得 非常 稀疏 。 
@ 每 个 cell 中 的 数据 可 以 有 多 个 版 本 ， 默 认 情 况 下 版 本 号 自动 分 配 ， 是 单元 格 插入 时 


的 时 间 戳 。 
@ HBase 中 的 数据 都 是 字符 串 ， 没 有 类 型 。 


HBase 以 表 的 形式 存储 数据 。 表 由 行 和 列 组 成 。 列 划分 为 若干 个 列 族 ( row family ) ， 因 


此 HBase 的 逻辑 视图 如 表 3.3 所 示 。 


表 3.3 ”HBase 的 逻辑 视图 


column-family1 column-family2 
RowKey 
eolumnl ooo? Joon |oom2 | 


tl:abe 


column3 


column-family3 


columnl 


t2:gdxdf 
i t3:abe {2:dfdsfa 
二 tl:gdxdf 13:dfdf 


t2:dfadfasd 
tl:dfdasddsf 


t2:dfxxdfasd 
tl:taobao.com 


1. HBase 中 数据 表 的 物理 存储 方式 


在 这 里 ， 我 们 将 介绍 HBase 中 数据 表 的 物理 存储 方式 ， 具体 如 下 所 示 。 


@ 表 中 的 所 有 行 都 按照 Row Key 的 字典 序 排列 。 
@ 表 在 行 方向 上 分 割 为 多 个 Region。 


@ Region 按 大 小 分 割 的 ， 每 个 表 一 开始 只 有 一 个 Region， 但 随 着 数据 的 不 断 插入 表 ， 
Region 不 断 会 增 大 。 当 增 大 到 一 个 阀 值 时 ， Region 就 会 等 分 成 两 个 新 的 Region。 当 
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表 中 的 行 不 断 增多 ， 就 会 有 越 来 越 多 的 Region 与 之 相对 应 ， 如 图 3.12 和 图 3.13 所 示 。 


Table 


图 3.13 ”分 到 两 个 新 的 Region 


@ Region 是 HBase 中 分 布 式 存 储 和 负载 均衡 的 最 小 单元 。 最 小 单元 是 指 不 同 的 Region 可 
以 分 布 在 不 同 的 Region Server 上 。 但 是 一 个 Region 是 不 会 拆 分 到 region server， 如 图 


3.14 所 示 。 


Tablel 


Table2 


Region Servers 


图 3.14 ”Region Server 与 表 
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【2 Region 虽 然 是 分 布 式 存储 的 最 小 单元 ， 但 它 并 不 是 存储 的 最 小 单元 。 事实 上 ， 
有 Region 由 一 个 或 多 个 Store 组 成 ， 每 个 Store 保 存 一 个 columns family, 而 每 个 Store 又 是 
由 一 个 memStore 和 0 到 多 个 StoreFile 组 成 ， 如 图 3.15 所 示 。 


Table 

Region 
心 Region 
Store Store Store 
Region memstore memstore memstore 
StoreFile StoreFile 

Region StoreFile 

本 StoreFile 
Region 


图 3.15 Region 的 存储 组 成 单元 
HBase 的 系统 架构 可 以 参照 图 3.16 和 图 3.179 所 示 。 


Zookeeper cluster 


Zookeeper Zookeeper Zookeeper 


Client 


Region server cluster 


Region server Regionserver “Region server Region server 


图 3.16 ”HBase 系 统 架 构 
(1) Client 
Client 包 含 访问 HBase 的 接口 ， 同 时 也 维护 着 一 些 cache， 来 加 快 对 HBase 的 访问 ， 如 
Region 的 位 置信 息 。 
(2 ) Zookeeper 
@ 保证 在 任何 时 候 ， 集 群 中 有 且 仅 有 一 个 master。 
@ 存储 所 有 的 Region 寻 址 入 口 o 
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@ 对 Region Server 的 状态 实时 监控 ， 并 及 时 将 Region Server 的 上 线 和 下 线 信 息 通 知 给 


Master。 


@@ 对 HBase 的 schema 进 行 存储 ， 包 括 有 哪些 表 以 及 每 个 表 有 哪些 column family。 


图 3.17 ”HBase 系 统 架 构 


(3 ) Master 
HBase 集 群 中 通常 有 一 个 master 节 点 ， 其 功能 作用 如 下 。 
@ 为 Region Server 分 配 Region。 
@ 负 责 Region Server 的 负载 ， 使 其 均衡 存在 。 
@@ 若 发 现 失效 的 Region Server， 重 新 分 配 Region。 
@ 对 GFS 上 的 垃圾 文件 进行 回收 。 
@ 对 schema 的 更 新 请 求 进行 相应 的 处 理 。 
( 4) Region Server 
RegionServer 是 HBase 集 群 运行 在 各 个 工作 节点 之 上 的 服务 ， 它 是 整个 HBase 系 统 的 关键 所 
在 ， 其 功能 作用 如 下 。 
@ 维护 Master 分 配给 它 的 Region， 并 处 理 对 这 些 民 egion 的 1/O 请 求 。 
@ 负责 切 分 在 运行 过 程 中 变 得 过 大 的 Region。 
可 以 看 到 ，Client 在 访问 HBase 上 的 数据 时 ， 并 不 需要 Master 的 参与 ( 寻 址 访问 Zookeeper 
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和 Region Server， 数 据 读 写 访问 Region Server ) ，Master 的 作用 仅仅 是 维护 表 和 Region 的 元 数据 
信息 ， 并 且 它 的 负载 往往 很 低 。 

2. HBase 的 关键 算法 及 流程 

(1) Region 的 定位 

系统 要 怎样 才能 找到 某 个 Row Key 或 者 Row Key range 所 在 的 Region。HBase 提 供 了 一 个 三 
层 类 似 B+ 树 的 结构 来 保存 Region 的 位 置 。 

第 一 层 持 有 Root Region 的 位 置 ， 负 责 储存 Zookeeper 里 的 文件 。 

第 二 层 Root Region 是 .META. 表 的 第 一 个 Region， 用 户 可 以 通过 Root Region 来 访问 .META. 
表 中 的 数据 。 它 将 .META.z 表 中 其 他 Region 的 位 置 保存 了 下 来 。 

第 三 层 是 .META.， 如 图 3.18 所 示 ， 它 将 HBase 中 所 有 数据 表 的 Region 位 置信 息 保存 了 下 
来 ， 是 一 个 特殊 的 表 。 


tablel 
Region 
Region 
-META. Region table? 
-古本 |] De 
“Wi table3 SE 
"| Region | | | 的 位 置信 息 /|| Region | Region 
>» Region Region 二 
Region 
二 


图 3.18 ”HBase 的 关键 算法 及 流程 


图 3.18 HBase 的 关键 算法 及 流程 说 明 如 下 。 

a. 在 .META. 表 中 ,每 一 行 都 保存 了 一 个 Region 的 位 置信 息 ， 可 由 表 名 + 表 的 最 后 一 样 编码 
形成 Row Key。 

b. 不 会 发 生 Root Region 被 split 的 情况 ， 可 以 保证 三 次 跳 转 后 定位 到 任意 Region。 

c. client 的 作用 是 把 查询 过 的 位 置信 息 存 人 缓存 ， 并 且 缓 存 不 会 主动 失效 。 假 如 client 上 的 
缓存 全 部 失效 ， 需 要 进行 6 次 网 络 的 来 回 ， 才 能 重新 定位 到 正确 的 Region ( 其 中 三 次 用 来 发 现 
缓存 失效 ， 而 另外 三 次 则 用 来 获取 位 置信 息 ) 9 。 

d. 在 内 存 中 保存 了 .META. 表 的 全 部 Region， 目 的 是 为 了 提高 访问 的 速度 。 

(2 ) 读 写 过 程 

前 面 提 到 ，HBase 对 表 进 行 更 新 主要 是 通过 MemStore 和 StoreFile 存 储 来 进行 的 。 在 更 新 
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时 ， 第 一 步 先 在 内 存 ( MemStore ) 和 Log ( WAL log ) 中 写 和 数据。 其 中 ， 数 据 在 MemStore 中 
是 有 排序 的 ， 当 MemStore 中 的 数据 到 达 某 一 阔 值 时 ， 一 个 新 的 MemStore 就 会 被 创建 出 来 ， 原 
来 的 MemStore 会 添加 到 flush 队 列 中 ， 通 过 单独 的 线程 flush 到 磁盘 上 ， 形 成 一 个 StoreFile。 同 
时 ， 系 统 会 在 Zookeeper 中 记录 一 个 redo point， 表 示 此 刻 之 前 的 变更 已 经 持久 化 。 如 若 系统 出 
现 意 外 ， 内 存 中 的 数据 可 能 会 丢失 ， 这 时 可 以 通过 使 用 Log ( WAL log ) 将 checkpoint 之 后 的 数 
据 恢 复 。 而 StoreFile 是 只 读 的 ， 形 成 后 就 不 能 修改 ， 因 此 更 新 HBase 就 是 在 不 断 地 追加 操作 。 
当 一 个 Store 中 的 StoreFile 达 到 某 一 阔 值 时 ， 就 会 将 同一 个 key 修 改 合并 到 一 起 ， 然 后 形成 一 个 
大 的 StoreFile， 当 StoreFile 达 到 某 一 阀 值 时 ， 会 等 分 成 两 个 StoreFile。 由 于 更 新 表 的 这 个 过 程 
是 不 断 追 加 的 ， 因 此 对 读 请 求 进行 处 理 时 ，Store 中 全 部 的 MemStore 和 StoreFile 都 会 被 访问 ， 然 
后 按照 Row Key 合 并 MemStore 和 StoreFile。 在 合并 的 过 程 中 ， 由 于 StoreFile 和 MemStore 都 是 经 过 
排序 的 ， 并 且 StoreFile 带 有 内 存 索引 ， 所 以 所 需 时 间 较 少 。 
写 请 求 的 处 理 过 程 如 图 3.19 所 示 。 
gd Dynamic View / 


HRegionServer HRegion WALEdit WALLog MemStore FlushRequester 


: 
| 
| 
| 

getRegion( ) 

i 


put() 


critical updatesLock. readLock ( ).lock() 7 


checkFamllies( ) 


人 


| slateKVhimentamps ) 


addFamilyMapToWALEdit() | 
addl | | 


apptnd() | 


applyFamilyMapToMemstore()! ! 
add() | ! 


< 


isFlush=isFlushSize( ): boolea 
| | 


requestFlush 0 
! 


! 
requestFlush () 


图 3.19” 写 请 求 处 理 过 程 
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a. Client 首 先 向 Region Server 提 交 写 请 求 。 

b. Region Server 找 到 目标 Region。 

c. Region 检 查 数据 是 否 与 schema 相 一 致 

d. 如 果 客 户 端 没有 规定 某 个 特定 的 版 本 ， 则 可 以 获取 当前 系统 时 间作 为 数据 版 本 。 

e. 将 更 新 写 人 WAL log 中 二 

人 将 更 新 写 人 Memstore 中 。 

g. 判断 Memstore 是 否 需 要 flush 为 Store 文 件 。 

(3 ) Region 的 分 配 

一 个 Region Server 在 任何 时 刻 只 能 分 配 到 一 个 Region。Master 则 记录 了 当前 有 哪些 Region 
Server 可 用 ， 哪 些 Region 还 没有 分 配 ， 以 及 当前 哪些 Region 分 配给 了 哪些 Region Server。 当 有 
Region 还 没有 分 配 ， 同 时 存在 一 个 Region Server 上 有 可 用 空间 ，Master 就 会 给 这 个 Region Server 
发 送 一 个 装载 请 求 ，Region Server 收 到 请 求 后 ， 就 可 以 开始 对 该 Region 提 供 服务 ， 把 还 没有 被 
分 配 的 Region 分 配给 这 个 有 可 用 空间 的 Region Server。 

(4 ) Region Server 上 线 

为 了 跟踪 Region Server 的 状态 ，Master 借 助 于 Zookeeper。 启动 某 个 Region Server 时 ,在 
Zookeeper 的 Server 目 录 下 Region Server 首 先 会 建立 代表 它 自 己 的 文件 ， 同 时 获得 该 文件 的 独占 
锁 。 由 于 Master 订 阅 了 Server 目 录 上 的 变更 消息 ， 所 以 当 出 现 新 增 或 删除 的 操作 在 Server 目 录 
下 的 文件 时 ，Master 会 通过 Zookeeper 立 刻 知 道 。 因 此 ， 只 要 Region Server 上 线 ，Master 就 能 立 
刻 知 道 消息 。 

(5 ) Region Server 下 线 

当 Region Server 上 线 时 ，Zookeeper 会 获得 代表 这 人 台 Server 的 文件 上 的 独占 锁 。 相 应 地 ， 当 
Region Server 下 线 时 ，Region Server 和 Zookeeper 的 会 话 就 会 断 开 ，Zookeeper 会 自动 释放 独占 
锁 。Master 会 不 断 地 查询 Server 目 录 下 文件 的 锁 状 态 ， 一旦 Master 发 现 某 个 Region Server 的 独 
占 锁 丢 失 了 (或 者 Master 和 Region Server 通 信和 连续 几 次 都 不 成 功 ) ， 则 Master 就 会 尝试 着 去 获 
取代 表 这 个 Region Server 的 读 写 锁 。 一 旦 获取 成 功 ， 即 可 确定 以 下 两 种 情况 发 生 了 : Region 
Server 与 Zookeeper 之 间 的 网 络 断 开 了 ， 或 者 Region Server 挂 了 。 无论 哪 种 情况 发 生 ，Region 
Server 都 将 无 法 继续 为 它 的 Region 提 供 服务 ， 此 时 Master 会 将 Server 目 录 下 代表 这 台 Region 
Server 的 文件 删除 ， 并 重新 分 配 这 人 台 Region Server 的 Region。 

如 果 Region Server 丢 失 了 它 的 锁 是 因为 网 络 暂 时 出 了 问题 ,那么 Region Server 重 新 连接 到 
Zookeeper 之 后 ， 只 要 代表 它 的 文件 没有 丢失 ， 它 就 会 不 断 地 尝试 获取 这 个 文件 上 的 锁 。 一 旦 
获取 到 了 ， 就 可 以 继续 为 其 提供 服务 。 

(6) master 上 线 

启动 Master 需 进行 以 下 步骤 。 

a. 首先 要 阻止 其 他 Master 成 为 Master， 因 此 可 从 Zookeeper 上 获取 惟一 一 个 代码 Master 的 锁 。 

b. 对 Zookeeper 上 的 Server 目 录 进 行 扫 描 ， 以 便 得 到 当 前 可 用 的 Region Server 列 表 。 

c. 与 步骤 b 中 的 每 个 Region Server 进 行 通信 ， 从 而 获得 当前 已 分 配 的 Region 以 及 Region 
Server 的 对 应 关系 。 
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d. 对 .META.Region 集 合 进 行 扫描 ， 通 过 计算 得 到 当前 还 没有 分 配 的 Region， 并 将 它们 放 
入 待 分 配 的 Region 列 表 中 。 

(7 ) Master 下 线 

Master 并 不 参与 表 的 数据 MO 的 过 程 ， 只 会 维护 Region 和 表 的 元 数据 。Master 下 线 会 导致 所 
有 元 数据 的 修改 被 冻结 ， 而 读 写 表 的 数据 还 是 可 以 正常 进行 的 ， 因 此 在 短 时 间 内 Master 下 线 
对 整个 HBase 集 群 并 没有 显著 的 影响 。 从 上 线 过 程 可 以 看 到 ，Master 保 存 的 信息 都 可 以 从 系统 
其 他 地 方 收集 到 或 计算 出 来 ， 因 此 ,在 一 般 的 HBase 集 群 中 ， 总 会 有 一 个 Master 在 提供 服务 ， 
同时 也 存在 着 另 一 个 或 一 个 以 上 的 “master” 在 等 待 时 机 抢占 它 的 位 置 。 


有 3.5 图 存 数据 库 


图 存 数据 库 主 要 是 将 数据 以 图 的 方式 存储 。 它 主要 适用 于 关系 较 强 的 数据 中 ， 但 适用 范 
围 很 小 ， 因 为 很 少 有 操作 涉及 到 整个 图 。 主 要 产品 有 Neo4j 、GraphDB 和 OrientDB 等 ， 本 书 主 
要 介绍 Neo4j 。 


3.5.1 Neo4j 


Neo4j 是 一 个 用 Java 实 现 的 、 完 全 兼容 ACID 的 图 形 数 据 库 。 数 据 以 一 种 针对 图 形 网 络 进行 
过 优化 的 格式 保存 在 磁盘 上 。Neo4j 的 内 核 是 一 种 极 快 的 图 形 引擎 ， 具 有 数据 库 产 品 期 望 的 所 
有 特性 ， 如 恢复 、 两 阶段 提交 、 符 合 XA 等 。 

Neo4j 是 图 形 数据 库 中 最 重要 的 一 种 。 它 使 用 数据 结构 中 图 ( graph ) 的 概念 来 进行 建 
模 。Neo4j 中 两 个 最 基本 的 概念 是 节点 和 边 。 节 点 表示 实体 ， 边 则 表示 实体 之 间 的 关系 。 节 
点 和 边 都 可 以 有 自己 的 属性 。 不 同 实 体 通过 各 种 不 同 的 关系 关联 起 来 ， 形 成 复杂 的 对 象 图 。 
Neo4j 同 时 提供 了 在 对 象 图 上 进行 查找 和 遍历 的 功能 。Neo4j 使 用 “图 ”这 种 最 通用 的 数据 结 
构 来 对 数据 进行 建 模 ， 使 得 Neo4j 的 数据 模型 在 表达 能 力 上 非常 强 。 链 表 、 树 和 散 列 表 等 数据 
结构 都 可 以 抽象 成 图 来 表示 。Neo4j 同 时 具有 一 般 数据 库 的 基本 特性 ,包括 事务 支持 、 高 可 用 
性 和 高 性 能 等 。Neo4j 已 经 在 很 多 生产 环境 中 得 到 了 应 用 。 流 行 的 云 应 用 开发 平台 Heroku 也 提 
供 了 Neo4j 作 为 可 选 功能 。 
对 于 很 多 应 用 来 说 ， 领 域 对 象 模型 本 身 就 是 一 个 图 结构 。 对 于 这 样 的 应 用 ， 使 用 Neo4j 这 
样 的 图 形 数据 库 进 行 存储 是 最 适合 的 ， 因 为 在 进行 模型 转换 时 代价 最 小 。 以 基于 社交 网 络 的 
应 用 为 例 ， 用 户 作为 应 用 中 的 实体 ， 通 过 不 同 的 关系 关联 在 一 起 ， 如 亲人 关系 、 朋 友 关 系 和 
同事 关系 等 。 不 同 的 关系 有 不 同 的 属性 。 比 如 同事 关系 所 包含 的 属性 包括 所 在 公司 的 名 称 、 
开始 的 时 间 和 结束 的 时 间 等 。 对 于 这 样 的 应 用 ， 使 用 Neo4j 来 进行 数据 存储 ， 不 仅 实现 起 来 简 
单 ， 后 期 的 维护 成 本 也 比较 低 。 

1. Neo4j 的 基本 使 用 


Neo4j 的 基本 使 用 包括 节点 和 关系 的 使 用 ，Neo4j 能 够 对 节点 进行 索引 ， 同 时 还 支持 非常 
复杂 的 图 的 遍历 操作 。 
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(1 ) 节点 和 关系 

Neo4j 中 最 基本 的 概念 是 节点 ( node ) 和 关系 (relationship ) 。 节 点 表示 实体 ， 由 org. 
neo4j.graphdb.Node 接 口 来 表示 。 在 两 个 节点 之 间 ， 可 以 有 不 同 的 关系 。 关 系 由 org.neo4j. 
graphdb.Relationship 接 口 来 表示 。 每 个 关系 由 起 始 节点 、 终 止 节 点 和 类 型 等 三 个 要 素 组 成 。 
起 始 节 点 和 终止 节点 的 存在 ,说 明了 关系 是 有 方向 ， 类 似 于 有 向 图 中 的 边 。 不 过 在 某 些 情况 
下 ,关系 的 方向 可 能 并 没有 意义 ,会 在 处 理 时 被 忽略 。 所 有 的 关系 都 是 有 类 型 的 ， 用 来 区 分 
节点 之 间 意 义 不 同 的 关系 。 在 创建 关系 时 ,需要 指定 其 类 型 。 关 系 的 类 型 由 org.neo4j.graphdb. 
RelationshipType 接 口 来 表示 。 节 点 和 关系 都 可 以 有 自己 的 属性 。 每 个 属性 是 一 个 简单 的 名 值 
对 。 属 性 的 名 称 是 String 类 型 的 ， 而 属性 的 值 则 只 能 是 基本 类 型 、String 类 型 以 及 基本 类 型 和 
String 类 型 的 数组 。 一 个 节点 或 关系 可 以 包含 任意 多 个 属性 。 对 属性 进行 操作 的 方法 声明 在 接 
口 org.neo4j.graphdb.PropertyContainer 中 。Node 和 Relationship 接 口 都 继承 自 PropertyContainer 接 
口 。PropertyContainer 接 口中 常用 的 方法 包括 获取 和 设置 属性 值 的 getProperty 和 setProperty。 下 
面 通过 具体 的 示例 来 说 明 节 点 和 关系 的 使 用 方法 。 

此 示例 是 一 个 简单 的 歌曲 信息 管理 程序 ， 用 来 记录 歌手 、 歌 曲 和 专辑 等 相关 信息 。 在 这 
个 程序 中 ， 实 体 包 括 歌手 、 歌 曲 和 专辑 ， 关 系 则 包括 歌手 与 专辑 之 间 的 发 布 关系 以 及 专辑 与 
歌曲 之 间 的 包含 关系 。 

例 一 : 节点 和 关系 的 使 用 示例 
private static enum RelationshipTypes implements RelationshipType { 

PUBLISH, CONTAIN 


public void useNodeAndRelationship() { 
GraphDatabaseService db = new EmbeddedGraphDatabase ("music"); 
Transaction tx = db.beginTx(); 
Er 
Node nodel = db.createNode (); 
nodel .setProperty ("name"，" 歌 手 1"); 
Node node2 = db.createNode(); 
node2.setProperty ("name"，" 专 辑 1") ; 
nodel .createRelationshipTo (node2, RelationshipTypes .PUBLISH); 
Node node3 = db.createNode (); 
node3 . setProperty ("name",， "歌曲 1"); 
node2 .createRelationshipTo (node3, RelationshipTypes.CONTAIN); 
tx.success();? 
} finally { 
tx.finish(); 
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在 例 一 中 首先 定义 了 两 种 关系 类 型 。 定 义 关系 类 型 的 一 般 做 法 是 创建 一 个 实现 了 
RelationshipType 接 口 的 枚 举 类 型 。RelationshipTypes 中 的 PUBLISH 和 CONTAIN 分 别 表 示 发 布 
和 包含 关系 。 在 Java 程 序 中 可 以 通过 嵌入 的 方式 来 启动 Neo4j 数 据 库 ， 只 需要 创建 org.neo4j. 
kernel.EmbeddedCGraphDatabase 类 的 对 象 ， 并 指定 数据 库 文件 的 存储 目录 即 可 。 在 使 用 Neo4j 数 
据 库 时 ， 进 行 修改 的 操作 一 般 需要 包含 在 一 个 事务 中 进行 处 理 。 通 过 GraphDatabaseService 接 
口 的 createNode 方 法 可 以 创建 新 的 节点 。Node 接 口 的 createRelationshipTo 方 法 可 以 在 当前 节点 
和 另外 一 个 节点 之 间 创建 关系 。 

另外 一 个 与 节点 和 关系 相关 的 概念 是 路 径 。 路 径 有 一 个 起 始 节点 ， 接 着 的 是 若干 个 成 
对 的 关系 和 节点 对 象 。 路 径 是 在 对 象 图 上 进行 查询 或 遍历 的 结果 。Neo4j 中 使 用 org.neo4j. 
graphdb.Path 接 口 来 表示 路 径 。Path 接 口 提 供 了 对 其 中 包含 的 节点 和 关系 进行 处 理 的 一 些 操作 ， 
包括 使 用 startNode 和 endNode 方 法 来 获取 起 始 和 结束 节点 ， 以 及 使 用 nodes 和 relationships 方法 来 获 
取 遍 历 所 有 节点 和 关系 的 Iterable 接 口 的 实现 。 关 于 图 上 的 查询 和 遍历 ， 下 面 还 会 有 介绍 。 

(2 ) 使 用 索引 

当 Neo4j 数 据 库 中 包含 的 节点 比较 多 时 ， 要 快速 查找 满足 条 件 的 节点 会 比较 困难 。Neo4j 
提供 了 对 节点 进行 索引 的 能 力 ， 可 以 根据 索引 值 快 速 地 找到 相应 的 节点 。 下 面 通过 具体 的 示 
例 来 说 明 索 引 的 基本 用 法 。 

例 二 : 使 用 的 索引 示例 

public void useIndex() { 
GraphDatabaseService db = new EmbeddedGraphDatabase ("music"); 
Index<Node> index = db.index() .forNodes ("nodes"); 
Transaction tx = db.beginTx(); 
try { 
Node nodel = db.createNode(); 
String name = "歌手 1"; 
nodel .setProperty ("name", name); 
index.add (nodel, "name", name); 
nodel .setProperty ("gender", " 男 "); 
tx.success(); 
} finally { 
tx.finish (); 
3 
Object result = index.get ("name",， "歌手 1") .getSingle() 
.getProperty ("gender"); 
System.out.println(result); // 输出 为 “ 男 ” 
} 

例 二 通过 GraphDatabaseService 接 口 的 index 方 法 可 以 得 到 管理 索引 的 org.neo4j.graphdb. 

index.IndexManager 接 口 的 实现 对 象 。 Neo4j 支 持 对 节点 和 关系 进行 索引 。 通过 IndexManager 
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接口 的 forNodes 和 forRelationships 方 法 可 以 分 别 得 到 节点 和 关系 上 的 索引 。 索 引 通过 org.neo4j. 
graphdb.index.Index 接 口 来 表示 ， 其 中 的 add 方 法 用 来 把 节点 或 关系 添加 到 索引 中 ，get 方 法 用 
来 根据 给 定 值 在 索引 中 进行 查找 。 

(3 ) 图 的 遍历 

在 图 上 进行 的 最 实用 的 操作 是 图 的 遍历 。 通 过 遍历 操作 ， 可 以 获取 与 图 中 节点 之 间 的 关 
系 相关 的 信息 。Neo4j 支 持 非常 复杂 的 图 的 遍历 操作 。 在 进行 遍历 之 前 ， 需 要 对 遍历 的 方式 进 
行 描述 。 遍 历 的 方式 的 描述 信息 由 下 列 几 个 要 素 组 成 。 

@@ 遍历 的 路 径 : 通常 用 关系 的 类 型 和 方向 来 表示 。 

多 遍历 的 顺序 : 常见 的 遍历 顺序 有 深度 优先 和 广度 优先 两 种 。 

@ 遍历 的 惟一 性 : 可 以 指定 在 整个 遍历 中 是 否 允 许 经 过 重复 的 节点 、 关 系 或 路 径 。 

@@ 遍历 过 程 的 决策 器 : 用 来 在 遍历 过 程 中 判断 是 否 继续 进行 遍历 ， 以 及 选择 遍历 过 程 的 

返回 结果 。 

起 始 节点 : 遍历 过 程 的 起 点 。 

Neo4j 中 遍历 方式 的 描述 信息 由 org.neo4j.graphdb.traversal.TraversalDescript ion 接 口 来 表示 。 
通过 TraversalDescription 接 口 的 方法 可 以 描述 上 面 介 绍 的 遍历 过 程 的 不 同 要 素 。 类 org.neo4j. 
kernel.Traversal 提 供 了 一 系列 的 工厂 方法 用 来 创建 不 同 的 TraversalDescription 接 口 的 实现 。 例 
三 中 给 出 了 进行 遍历 的 示例 。 

例 三 : 遍历 操作 的 示例 

TraversalDescription td = Tiraversal.description() 
.relationships (RelationshipTypes .PUBLISH) 
.relationships (RelationshipTypes .CONTAIN) 

.depthFirst () 
.evaluator (Evaluators .pruneWhereLastRelationshipTypelIs (RelationshipTypes. 
CONTAIN) ); 

Node node = index.get ("name"，" 歌 手 1") .getSingle(); 

Traverser traverser = td.traverse (node); 

for (Path path : traverser) { 

System.out .println (path.endNode () .getProperty ("name")); 

} 

在 例 三 中 ， 首 先 通过 Traversal 类 的 description 方 法 创建 了 一 个 默认 的 遍历 描述 对 象 。 通 
过 TraversalDescription 接 口 的 relationships 方 法 可 以 设置 遍历 时 允许 经 过 的 关系 的 类 型 ， 而 
depthFirst 方 法 用 来 设置 使 用 深度 优先 的 遍历 方式 。 比 较 复杂 的 是 表示 遍历 过 程 的 决策 器 的 
evaluator 方 法 。 该 方法 的 参数 是 org.neo4j .graphdb.traversal. Evaluator 接 口 的 实现 对 象 。Evalulator 
接口 只 有 一 个 方法 evaluate。evaluate 方 法 的 参数 是 Path 接 口 的 实现 对 象 ， 表 示 当 前 的 遍历 路 
径 ， 而 evaluate 方 法 的 返回 值 是 枚 举 类 型 org.neo4j.graphdb.traversal.Evaluation , 表示 不 同 的 处 理 
策略 。 处 理 策略 由 两 个 方面 组 成 : 第 一 个 方面 为 是 否 包 含 当前 节点 ,第 二 个 方面 为 是 否 继续 
进行 遍历 。Evalulator 接 口 的 实现 者 需要 根据 遍历 时 的 当前 路 径 ， 做 出 相应 的 决策 ， 返 回 适 当 
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的 Evaluation 类 型 的 值 。 类 org.neo4j.graphdb.traversal.Evaluators 提 供 了 一 些 实用 的 方法 来 创建 常 
用 的 Evalulator 接 口 的 实现 对 象 。 例 三 中 使 用 了 Evaluators 类 的 pruneWhereLastRelationshipTypels 
方法 。 该 方法 返回 的 Evalulator 接 口 的 实现 对 象 会 根据 遍历 路 径 的 最 后 一 个 关系 的 类 型 来 进行 
判断 ， 如 果 关 系 类 型 满足 给 定 的 条 件 ， 则 不 再 继续 进行 遍历 。 

例 三 中 的 遍历 操作 的 作用 是 查找 一 个 歌手 所 发 行 的 所 有 歌曲 。 遍 历 过 程 从 表示 歌手 的 
节点 开始 ， 沿 着 RelationshipTypes.PUBLISH 和 RelationshipTypes.CONTAIN 这 两 种 类 型 的 关 
系 ， 按 照 深度 优先 的 方式 进行 遍历 。 如 果 当 前 遍历 路 径 的 最 后 一 个 关系 是 RelationshipTypes. 
CONTAIN 类 型 ， 则 说 明 路 径 的 最 后 一 个 节点 包含 的 是 歌曲 信息 ， 可 以 终止 当前 的 遍历 过 程 。 
通过 TraversalDescription 接 口 的 traverse 方 法 可 以 从 给 定 的 节点 开始 遍历 。 人 遍历 的 结果 由 org. 
neo4j.graphdb.traversal.Traverser 接 口 来 表示 ， 可 以 从 该 接口 中 得 到 包含 在 结果 中 的 所 有 路 径 。 
结果 中 的 路 径 的 终止 节点 就 是 表示 歌曲 的 实体 。 


上 3.6 文档 数据 库 


文档 数据 库 是 一 种 用 来 管理 文档 的 数据 库 ， 它 与 传统 数据 库 的 本 质 区 别 在 于 ， 其 信息 处 
理 基 本 单位 是 文档 ， 可 长 、 可 短 、 甚 至 可 以 无 结构 。 它 与 关系 数据 库 的 主要 区 别 在 于 ， 文 档 
数据 库 允 许 建 立 不 同类 型 的 非 结构 化 或 者 任意 格式 的 字段 ， 并 且 不 提供 完整 性 的 支持 。 但 是 
它 与 关系 型 数据 库 并 不 是 相互 排斥 的 ， 它 们 之 间 可 以 相互 补充 、 扩 展 。 文 档 数据 库 的 两 个 典 
型 代表 是 CouchDB 和 MongoDB。 


3.6.1 CouchDB 


CouchDB? ( Couch 是 cluster of unreliable commodity hardware 的 首 字母 缩写 ) 是 前 IBM 公 司 
Lotus Notes 开 发 者 Damien Katz 创 建 于 2005 年 的 一 个 项 目 。Damien Katz 将 其 定义 为 “面向 大 规 
模 可 扩展 对 象 数据 库 的 存储 系统 ”。 他 对 该 数据 库 的 目标 是 让 其 成 为 互联 网 的 数据 库 ， 因 此 
其 从 底层 的 设计 就 支持 部 署 Web 应 用 程序 。Damien Katz 自 己 在 近 两 年 的 时 间 内 创建 该 项 目的 
同时 ， 也 将 其 作为 开源 项 目 在 CNU General Public License 上 发 布 。 在 2008 年 2 月 ， 该 项 目 成 为 
Apache Incubartor 项 目 ， 同 时 其 许可 协议 变更 为 Apache License。 几 个 月 后 ，CouchDB 升 级 为 项 
级 项 目 ， 这 促使 其 第 一 个 稳定 版 在 2010 年 7 月 发 布 。 在 2012 年 初期 ，Damien Katz 离 开 了 该 项 目 
而 专注 于 CouchBase Server。 不 过 该 项 目 还 在 继续 进行 中 ， 在 2012 年 4 月 发 布 了 1.2 版 本 ，2013 
年 4 月 发 布 了 1.3 版 本 。 

CouchDB 的 主要 功能 是 将 数据 存储 为 “文档 ”， 内 容 为 用 JSON 表 示 的 有 一 个 或 者 多 个 字 
段 / 值 的 对 。 这 里 JSON 的 数据 类 型 和 结构 可 以 参见 表 3.4。CouchDB 中 的 每 一 个 文档 有 一 个 惟一 
的 ID 但 是 没有 必须 的 文档 schema。 

此 外 ，CouchDB 提 供 了 ACID 语义 ， 意 味 着 CouchDB 能 够 处 理 大 量 的 并 发 读 写 而 不 会 产生 
冲突 。 同 时 ， 在 CouchDB 中 ， 每 一 个 视图 都 是 由 作为 map/reduce 操 作 中 的 Map 部 分 的 JavaScript 
函数 构成 。 该 函数 接受 一 个 文档 并 且 将 其 转换 为 一 个 单独 的 值 来 返回 。CouchDB 能 够 对 视图 


@® http://baike.so.com/doc/5903671.html. 
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进行 索引 ， 同 时 在 文档 新 增 、 修 改 、 删 除 的 时 候 对 这 些 索 引进 行 更 新 。CouchDB 还 支持 复制 
的 分 布 式 架构 。CouchDB 的 设计 基于 支持 双向 的 复制 ( 同步 ) 和 离线 操作 。 这 意味 着 多 个 复 
制 能 够 对 同一 数据 有 其 自己 的 副本 ， 可 以 进行 修改 之后， 同步 这 些 变 更 。 

表 3.4 JSON 各 类 型 值 示例 


类 型 | 示例 示例 示例 | 
数值 “| "count"3 "acore" : -15 "height": 13.21 | 
字符 串 | "database": "CouchDB" "context": "can I help you?" | 
布尔 | "flag": "false" "lag": "true" | 
数组 ”| "运动 ": ("篮球 ", "足球 "," 游 |[{" 运 动 ": [" 篮 球 ", "足球 ", 游泳 ]},{"height":1.80},{"context": "can I 

泳 ") help you?"} 


(姓名 "… "李刚" "性 别 "" 男 ", "生日" "1990-01-12"] 
"Email": null 
CouchDB 可 以 保证 最 终 一 致 性 ， 使 其 能 够 同时 提供 可 用 性 和 分 割 容忍 。 此 外 ，CoucbDB 能 够 
同步 复制 到 可 能 会 离线 的 终端 设备 ( 比如 智能 手机 ) 中 ， 当 设备 再 次 在 线 时 再 处 理 数 据 同步 。 
1. CouchDB 的 特点 


@ CouchDB 与 lucene 的 index 结 构 相 类 似 ， 是 面向 文档 的 数据 库 ， 对 半 结 构 化 的 数据 进行 
存储 ， 特 别 适合 存储 文档 ， 因 此 很 适合 电话 本 、CMS、 地 址 本 等 的 应 用 。 在 这 些 应 
用 中 ， 相 较 于 关系 数据 库 ， 文 档 数 据 库 要 更 加 方便 ， 性 能 也 更 好 。 

@@ CouchDB 是 一 个 分 布 式 的 数据 库 ， 需 要 依靠 Erlang 无 与 伦比 的 并 发 特性 ， 在 n 台 物理 
节点 上 对 存储 系统 进行 分 布 ， 并 且 很 好 地 对 节点 之 间 的 数据 读 写 一 致 性 进行 同步 和 协 
调 。 在 应 用 基于 Web 的 大 规模 应 用 文档 时 ， 分 布 式 的 数据 库 可 以 大 量 地 改动 应 用 代码 
层 ， 使 它 不 必 像 传统 的 关系 数据 库 那 样 还 要 分 库 拆 表 。 

@ CouchDB 支 持 REST API， 操 作 CouchDB 数 据 库 时 可 以 让 用 户 使 用 JavaScript 来 进行 ， 
也 可 以 在 编写 查询 语句 时 使 用 JavaScript。 借 助 于 此 ， 用 AJAX 技 术 结 合 CouchDB 开 发 
出 来 的 CMS 系 统 更 加 简单 方便 。 


2. 工作 原理 


CouchDB 的 构建 基础 是 在 强大 的 B- 树 储存 引擎 上 。 该 引擎 提供 一 种 能 够 在 对 数 均 推 时间 
内 执行 搜索 、 插 入 和 删除 操作 的 机 制 ， 并 负责 排序 CouchDB 中 的 数据 。B- 树 储存 引擎 被 用 于 
所 有 的 内 部 文档 、 数 据 和 视图 。 

由 于 CouchDB 数 据 库 的 结构 独立 于 模式 ， 所 以 它 在 创建 文档 之 间 的 任意 关系 ， 以 及 提供 
聚合 和 报告 特性 时 是 依赖 于 视图 的 。Map/Reduce 是 一 种 使 用 分 布 式 计算 来 处 理 和 生成 大 型 
数据 集 的 模型 ， 对 这 些 视图 的 结果 是 需要 使 用 Map/Reduce 来 计算 。 Map/Reduce 模 型 主要 由 
Google 引 入 ， 分 为 两 个 步骤 。 在 Map 步 又 中 ， 主 节点 对 文档 进行 接收 ， 然 后 将 问题 划分 为 多 个 
子 问题 。 然 后 将 这 些 子 问题 发 布 给 工作 节点 ， 由 工作 节点 处 理 后 再 将 结果 返回 给 主 节点 。 而 
在 Reduce 步 骤 中 ， 主 节点 对 来 自 工作 节点 的 结果 进行 接收 并 把 它们 合并 ， 从 而 获得 能 够 解决 
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最 初 问题 的 总 体 结果 和 答案 。 

CouchDB 中 的 Map/Reduce 特 性 是 生成 键 / 值 对 ， 它 们 被 CouchDB 插 入 到 B- 树 引擎 中 并 且 可 
以 根据 它们 的 键 进行 排序 。 用 户 可 以 通过 键 进行 高 效 的 查找 ， 并 提高 B- 树 中 的 操作 的 性 能 。 
此 外 ， 这 还 意味 着 对 数据 进行 分 区 时 可 以 在 多 个 节点 上 ， 而 不 需要 单独 查询 每 个 节点 。 

传统 的 关系 数据 库 管理 系统 对 并 发 性 的 管理 有 时 是 通过 锁 来 进行 ， 从 而 防止 某 个 客户 机 
正在 更 新 的 数据 被 其 他 客户 机 访问 。 

这 就 防止 多 个 客户 机 同时 更 改 相同 的 数据 ， 但 对 于 多 个 客户 机 同时 使 用 一 个 系统 的 情 
况 ， 数 据 库 在 确定 哪个 客户 机 应 该 接收 锁 并 维护 锁 队 列 的 次 序 时 会 遇 到 困难 ， 这 很 常见 。 
在 CouchDB 中 没有 锁 机 制 ， 它 使 用 的 是 多 版 本 并 发 性 控制 ( Multiversion concurrency control， 
MVCC ) ， 它 向 每 个 客户 机 提供 数据 库 的 最 新 版 本 的 快照 。 这 意味 着 在 提交 事务 之 前 ， 其 他 
用 户 不 能 看 到 更 改 。 许 多 现代 数据 库 开 始 从 锁 机 制 前 移 到 MVCC， 包 括 Oracle ( V7 之 后 ) 和 
Microsoft® SQL Server 2005 及 更 新 版 本 。 


3. 最 佳 应 用 场景 
适合 数据 变化 相对 较 少 ， 进 行 数据 统计 ， 执 行 预定 义 查询 的 应 用 程序 。 对 需要 提供 数据 
版 本 支持 的 应 用 程序 较 适用 。 


3.6.2 MongoDB 


MongoDB9 是 一 个 介 于 关系 与 非 关 系数 据 库 之 间 的 产品 ,在 非 关系 数据 库 之 中 它 的 功能 
最 为 丰富 ， 与 关系 数据 库 最 为 接近 。 它 支持 的 是 一 种 类 似 于 JSON 的 BJSON 格 式 的 数据 ， 其 结 
构 很 松散 ， 因 而 能 够 存储 相对 复杂 的 数据 类 型 。 支 持 的 查询 语言 极其 强大 是 Mongo 一 个 最 大 
的 特点 ，Mongo 的 语法 跟 面 向 对 象 的 查询 语言 有 些 类 似 ， 基 本 能 够 实现 类 似 关 系数 据 库 单 表 
查询 中 绝 大 多 数 的 功能 ， 同 时 还 能 对 数据 建立 索引 进行 支持 。 它 的 特点 是 易 使 用 、 易 部 署 、 
高 性 能 ， 非 常 容 易 存 储 数 据 。 

MongoDB 的 主要 功能 与 特性 如 下 。 
面向 集合 存储 ， 容 易 存 储 对 象 类 型 的 数据 ; 
支持 动态 查询 ; 
模式 自由 ; 
支持 完全 索引 ， 包 含 内 部 对 象 ; 
支持 复制 与 故障 恢复 ; 
支持 查询 ; 

使 用 高 效 的 二 进 制 数据 存储 ， 包 括 大 型 对 象 ( 如 视频 等 ) ; 

自动 处 理 碎 片 ， 以 支持 云 计算 层次 的 扩展 性 ; 

支持 JAVA、RUBY、PHP、C++、PYTHOMN 等 多 种 语言 ; 

文件 存储 格式 为 BSON ( 一 种 JSON 的 扩展 ) ; 

能 够 通过 网 络 访问 。 

“面向 集合 ” (Collection-Oriented ) 是 指数 据 被 分 组 存储 于 数据 集中 ， 被 称 作 一 个 集合 


四 http://wenku_baidu.com/view/f996568683d049649b66588f-html. 


96 | 大 数据 导论 : 关键 技术 与 行业 应 用 最 佳 实践 


( Collection ) 。 在 数据 库 中 每 一 个 集合 都 有 着 惟一 的 标识 名 ， 而 且 能 够 包含 无 穷 数 目的 文 
档 。 集 合 的 概念 与 关系 型 数据 库 (RDBMS ) 里 的 表 相 类 似 ， 不 一 样 的 是 它 无 需 定 义 任何 模 
式 。Nytro MegaRAID 技 术 中 的 闪存 高 速 缓存 算法 ， 能 够 快速 识别 数据 库 内 大 数据 集中 的 热 数 
据 ， 提 供 一 致 的 性 能 改进 。 
模式 自由 ( schema-free ) ， 也 就 是 存储 在 MongoDB 数 据 库 中 的 文件 ， 关 于 它 的 任何 结构 定义 
用 户 并 不 需要 知道 9。 假 如 知道 的 话 ， 用 户 完全 可 以 在 同一 个 数据 库 里 存储 不 同 结构 的 文件 。 
文档 主要 以 键 值 对 的 形式 存储 在 集合 中 。 刍 是 字符 串 类 型 ， 用 于 惟一 地 标识 一 个 文档 ， 多 
种 复杂 的 文件 类 型 均 可 以 是 值 ， 这 种 存储 形式 叫做 BSON ( Binary Serialized Document Format ) 。 
MongoDB 已 经 在 多 个 站 点 部 署 ， 其 主要 场景 如 下 。 
@@ 网 站 实时 数据 处 理 。 它 非常 适合 实时 地 插入 、 更 新 与 查询 ， 并 具备 网 站 实时 数据 存储 
所 需 的 复制 及 高 度 伸缩 性 。 
@ 缓存 。 由 于 性 能 很 高 ， 它 适合 作为 信息 基础 设施 的 缓存 层 。 在 系统 重启 之 后 ， 由 它 搭 
建 的 持久 化 缓存 层 可 以 避免 下 层 的 数据 源 过 载 。 
@@ 高 仲 缩 性 。 非 常 适 合 由 数 十 或 数 百 台 服 务 器 组 成 的 数据 库 ， 它 的 路 线 图 中 已 经 包含 对 
MapReduce 引 擎 的 内 置 支持 。 
不 适用 的 场景 如 下 。 
@ 要 求 高 度 事务 性 的 系统 。 
@ 传统 的 商业 智能 应 用 。 
@ 复杂 的 跨 文档 ( 表 ) 级 联 查 询 。 


上 13.7 NewSQL 数 据 库 


NewSQL 是 对 各 种 新 的 可 扩展 /高 性 能 数据 库 的 简称 ， 这 类 数据 库 不 仅 具 有 NoSQL 对 海量 
数据 的 存储 管理 能 力 ， 还 保持 了 传统 数据 库 支 持 的 ACID 和 SQL 等 特性 。 本 节 介 绍 了 NewSQL 数 
据 库 的 相关 概念 ， 并 详细 介绍 了 MySQL Cluster 技 术 和 VoltDB 等 内 容 。 


3.7.1 NewSQL 数 据 库 简 介 


人 们 曾经 普遍 认为 传统 数据 库 由 于 支持 ACID 和 SQL 等 特性 限制 了 其 本 身 的 扩展 和 处 理 海 
量 数据 的 能 力 ， 因 此 尝试 通过 牺牲 这 些 特 性 来 提升 对 海量 数据 的 存储 管理 能 力 。 但 是 现在 有 
些 人 持 有 不 同 的 观念 ， 他 们 认为 制约 系统 性 能 的 是 锁 机 制 、 日 志 机 制 和 缓冲 区 管理 等 ， 而 不 
是 支持 ACID 和 SQL 的 特性 。 只 要 优化 这 些 技术 ， 关 系 型 数据 库 系统 在 处 理 海量 数据 时 也 能 获 
得 很 好 的 性 能 。 

关系 型 数据 库 处 理事 务 时 对 性 能 影响 较 大 ， 需 要 优化 的 因素 有 以 下 5 条 。 

( 1) 通信。 应 用 程序 通过 ODBC 或 JDBC 与 DBBMS 进 行 通信 和 是 OLTP 事 务 中 的 主要 开销 。 

(2 ) 日 志 。 关 系 型 数据 库 事 务 中 对 数据 的 修改 需要 记录 到 日 志 中 ， 而 日 志 则 需要 不 断 
写 到 硬盘 上 来 保证 持久 性 ， 这 种 代价 是 昂贵 的 ， 而 且 降低 了 事务 的 性 能 。 


四 http://wenku .baidu.com/view/f996568683d049649b66588f-html. 
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(3 ) 锁 。 事 务 中 修改 操作 需要 对 数据 进行 加 锁 ， 这 就 需要 在 锁 表 中 进行 写 操作 ， 造 成 
了 一 定 的 开销 。 

(4) 门 。 关 系 型 数据 库 中 一 些 数据 结构 ， 如 B 树 、 锁 表 、 资 源 表 等 的 共享 影响 了 事务 的 
性 能 。 这 些 数 据 结构 常常 被 多 线程 程序 读 取 ， 所 以 需要 短期 锁 即 门 。 

(5 ) 缓冲 区 管理 。 关 系 型 数据 将 数据 组 织 成 固定 大 小 的 页 ， 在 内 存 中 磁盘 页 的 缓冲 管 
理会 造成 一 定 的 开销 。 

为 了 解决 上 面 的 问题 ， 一 些 新 的 数据 库 采用 部 分 不 同 的 设计 ， 它 取消 了 耗费 资源 的 组 
冲 池 ， 在 内 存 中 运行 整个 数据 库 。 它 还 据 弃 了 单线 程 服务 的 锁 机 制 ， 而 通过 使 用 元 余 机 器 来 
实现 复制 和 故障 恢复 ， 取 代 原 有 的 昂贵 的 恢复 操作 。 这 种 可 扩展 、 高 性 能 的 SQL 数据 库 被 称 
为 NewSQL。 其 中 “New” 用 来 表明 与 传统 关系 型 数据 库 的 区 别 。NewSQL 是 一 个 很 宽泛 的 概 
念 ， 它 首先 由 451 集 团 在 一 份 报 告 中 提出 。NewSQL 主 要 包括 两 类 系统 : 拥有 关系 型 数据 库 产 
唱和 服务 ， 并 将 关系 模型 的 好 处 带 到 分 布 式 架构 上 ; 或 者 提高 关系 数据 库 的 性 能 ， 使 之 达到 
不 用 考虑 水 平 扩展 问题 的 程度 。 

NewSQL 能 够 提供 SQL 数据 库 的 质量 保证 ， 也 能 提供 NoSQL 数 据 库 的 可 扩展 性 。VoltDB 是 
NewSQL 的 实现 之 一 ， 其 开发 公司 的 CTO 宣 称 ， 他 们 的 系统 使 用 NewSQL 的 方法 处 理事 务 的 速 
度 比 传统 的 数据 库 系 统 快 45 倍 。VoltDB 可 以 扩展 到 39 个 机 器 上 ， 在 300 个 CPU 内 核 中 每 分 钟 可 
处 理 1600 万 个 事务 ， 其 所 需 的 机 器 数 比 Hadoop 集 群 要 少 很 多 。 

NewSQL 数 据 库 的 分 类 如 图 3.20 所 示 。 


NewSQL 数 据 库 


MySQL Cluster NuoDB SenseiDB 


Citrusleaf RethinkDB 


GenieDB 


图 3.20 ”NewSQL 数 据 库 的 分 类 


3.7.2 MySQL Cluster 


MySQL Cluster 是 一 种 允许 在 无 共享 系统 中 部 署 “ 内 存 中 ”数据 库 的 Cluster 技 术 。 无 共享 
体系 结构 的 存在 ， 使 得 系统 能 够 使 用 廉价 的 硬件 ， 而 且 系统 对 软 硬 件 并 没有 特殊 的 要 求 。 此 
外 ， 由 于 每 个 组 件 都 有 自己 的 内 存 和 磁盘 ， 故 不 会 存在 单 点 故障 。 

MySQL Cluster 由 一 组 计算 机 构成 ， 每 台 计 算 机 上 均 运 行 着 多 个 进程 ， 包 括 MySQL 服 务 
器 、 管 理 服务 器 、NDB Cluster 的 数据 节点 以 及 专门 的 数据 访问 程序 等 。Cluster 中 这 些 组 件 的 
关系 如 图 3.21 所 示 。 
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图 3.21 Cluster 中 组件 的 关系 

MySQL Cluster 能 够 使 用 多 种 故障 切换 和 负载 平衡 选项 来 配置 NDB 存 储 引擎 。 这 里 的 
“NDB” 是 一 种 “内 存 中 ”的 存储 引擎 ， 它 具有 可 用 性 高 和 数据 一 致 性 好 的 特点 ， 但 只 有 在 
Cluster 级 别 上 的 存储 引擎 上 实现 这 个 技术 最 简单 。 

MySQL Cluster 的 Cluster 有 一 部 分 可 独立 于 MySQL 服 务 器 进行 配置 。 在 MySQL Cluster 中 ， 
Cluster 的 各 个 部 分 都 被 视 为 1 个 节点 。 以 下 是 几 种 节点 的 介绍 

(1) 管理 (MGM ) 节点 。 这 类 节点 的 主要 作用 是 管理 MySQL Cluster 内 的 其 他 节点 ， 如 
提供 配置 数据 、 启 动 并 停止 节点 等 。 由 于 它 的 功能 特殊 ， 因 此 ， 在 启动 其 他 节点 之 前 应 该 首 
先 启动 这 类 节点 。 可 以 用 命令 “ndb_mgmd” 来 启动 MGM 节 点 。 

(2 ) SQL 节点 。 这 类 节点 主要 是 用 来 访问 Cluster 的 数据 。 对 MySQL Cluster 来 说 ， 客 户 
端 节点 使 用 的 是 NDB Cluster 存 储 引擎 的 传统 MySQL 服 务 器 。 通 常情 况 下 ，SQL 节 点 是 使 用 命 
令 “mysqld - ndbcluster” 来 启动 的 ， 或 着 也 可 以 将 “ndbeluster” 添 加 到 “my.cnf” 后 使 用 
“mysqld” 来 启动 。 

(3 ) 数据 节点 。 这 类 节点 是 用 来 保存 Cluster 的 数据 。 数 据 节 点 数目 的 多 少 是 根据 副本 数 
目的 多 少 来 决定 的 ， 且 这 个 数目 是 片段 的 倍数 。 比 如 ， 若 有 两 个 副本 ， 而 且 每 个 副本 均 有 两 


@® http://baike.so.com/doc/2286945.html. 
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个 片段 ， 那 么 就 有 4 个 数据 节点 。 可 以 用 命令 “ndbd” 来 启动 数据 节点 。 

管理 服务 器 ( MGM 节 点 ) 负责 管理 Cluster 日 志和 Cluster 的 配置 文件 。Cluster 中 的 每 个 节 
点 从 MGM 节 点 检索 配置 数据 ， 并 请 求 确定 MGM 节 点 所 在 位 置 的 方式 。 如 果 数 据 节 点 内 出 现 新 
的 事件 ， 节 点 就 会 将 关于 这 类 事件 的 信息 传输 到 MGM 节 点 ， 然 后 ， 将 这 类 信息 写 和 人 到 Cluster 
日 志 中 。MySQL Cluster 是 MySQL 适 合 于 分 布 式 计算 环境 的 高 实用 、 高 元 余 版 本 ，MySQL 
Cluster 采 用 了 NDB Cluster 存 储 引擎 。 在 MySQL 5.0 及 以 上 的 二 进 制版 本 和 与 最 新 的 Linux 版 本 
兼容 的 RPM 中 就 提供 了 该 存储 引擎 。 ( 注意 ， 要 想 获 得 MySQL Cluster 的 功能 ， 必 须要 安装 
mysql-server 和 mysql-max RPM ) 

所 有 的 这 些 节点 构成 一 个 完整 的 MySQL 集 群体 系 。 数 据 保存 在 “NDB 存 储 服务 器 ”的 存 
储 引 擎 中 ， 表 ( 结构 ) 则 保存 在 “MySQL 服 务 器 ”中 。 应 用 程序 通过 “MySQL 服 务 器 ”来 访 
问 这 些 数 据 表 ， 集 群 管理 服务 器 则 通过 管理 工具 (ndb_mgmd) 来 管理 “NDB 存 储 服 务 器 ”。 

实践 证 明 ， 通 过 将 MySQL Cluster 引 入 开放 源码 世界 ，MySQL 为 有 需要 的 人 提供 了 具有 高 
可 用 性 、 高 性 能 和 可 缩放 性 特点 的 Cluster 数 据 管理 。 

此 外 ， 可 以 有 任意 数目 的 Cluster 客 户 端 进程 或 应 用 程序 。 它 们 主要 分 为 以 下 两 种 类 型 9 。 

标准 MySQL 客 户 端 : 对 MySQL Cluster 来 说 ， 它 们 与 标准 的 MySQL 并 没有 区 别 。 即 ， 它 们 同 
样 可 以 从 用 PHP、C 、C++、jJava、Python 等 编写 的 现 有 MySQL 应 用 程序 中 访问 MySQL Cluster。 

管理 客户 端 : 这 类 客户 端 与 管理 服务 器 相连 ， 并 且 这 类 客户 端 提供 了 启动 和 停止 节点 、 
启动 和 停止 消息 跟踪 ( 仅 调试 版 本 ) 、 显 示 节 点 版 本 和 状态 、 启 动 和 停止 备份 等 命令 。 


3.7.3 VoltDB 


VoltDB 是 一 个 运行 于 内 存 中 的 开源 OLTP SQL 数据 库 ， 能 够 保证 事务 的 完整 性 。VoltDB 是 
由 Postgres 和 Ingres 联 合 创 始 人 Mike Stonebraker 领 导 开 发 的 一 个 下 一 代 开 源 数 据 库 管理 系统 。 
VoltDB 能 在 现 有 的 廉价 服务 器 集群 上 处 理 每 秒 数 百 万 次 数据 。 
(1) VoltDB 的 特点 
VoltDB 具 有 如 下 特点 。 
@ VoltDB 大 大 降低 了 服务 器 资源 的 开销 。 
@ 单 节点 每 秒 数据 处 理 远 远 高 于 其 他 数据 库 管 理 系统 。 
@ VoltDB 可 以 使 用 SQL 存 取 ， 支 持 传统 数据 库 的 ACID 模型 。 
(2 ) VoltDB 的 特征 
为 了 获得 最 大 化 吞吐 量 ， 数 据 可 以 保存 在 内 存 中 ,这 样 可 以 有 效 地 消除 缓冲 区 管 
理 。 VoltDB 通 过 SQL 引擎 把 数据 分 发 给 集群 服务 器 的 每 个 CPU 处 理 。 每 个 单线 程 分 区 自主 执 
行 ， 消 除 锁定 和 门 锁 的 需求 。VoltDB 可 以 简单 地 通过 在 集群 中 增加 附加 节点 的 方式 实现 性 能 
的 线性 增加 。 
(3 ) VoltDB 的 组 成 部 分 
一 个 典型 的 VoltDB 应 用 程序 由 以 下 文件 组 成 。 
@ 一 个 项 目 定义 文件 (project.xml)。 其 中 包含 哪些 存储 过 程 可 用 、 数 据 库 模式 文件 的 位 
置 、 分 区 信息 等 信息 。 


©® http:/blog.csdn.net/chinalinuxzend/article/details/1768860 
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@ 一 个 部 署 文件 (deployment.xml)。 其 中 包含 每 个 主机 的 站 点 数 等 信息 。 

@@ 数据 库 模式 (ddl.sq])。 

鲁 源 代 码 。 

(4) VoltDB 的 使 用 要 求 

VoltDB 需要 一 个 基于 64 位 Linux 的 操作 系统 ( 此 要 求 也 适用 于 Mac OSX 10.6 ) ， 同 时 还 需 
要 安装 Java 开 发 工具 包 。 可 以 使 用 Eclipse 来 编辑 源 代码 。 

要 将 项 目 导入 到 Eclipse 中 ， 可 打开 Eclipse， 然 后 执行 以 下 操作 。 

a. 选择 File>New>Project。 

b. 选择 Java Project from Existing Ant Buildfile， 然 后 单 击 Next。 

c. 选择 复 选 框 Link to the build file in the file system。 

d. 从 刚刚 安装 示例 应 用 程序 的 目录 中 选择 build.xml 作 为 Ant 生 成 文件 ， 然 后 选择 Finish。 

如 果 和 希望 创建 自己 的 应 用 程序 ，VoltDB 提供 了 一 个 工具 来 为 用 户 生 成 框架 项 目 ， 该 项 目 
用 于 生成 本 文中 附带 的 应 用 程序 的 文件 夹 结构 。 可 以 用 下 面 这 个 命令 进行 调用 。 

$ cd $HOME/voltdb-2.5/tools 
$ ./generate app acme $HOME/Projects/app 

运行 上 述 命令 并 查看 新 创建 的 文件 来， 将 会 看 到 该 工具 生成 了 一 个 框架 项 目 。 其 中 就 包 

含 了 构建 一 个 VoltDB 应 用 程序 所 需 的 文件 。 
(5 ) VoltDB 的 版 本 

目前 VoltDB 有 两 个 版 本 : 一 个 开源 社区 版 本 和 一 个 付费 企业 版 本 。 付 费 企 业 版 本 除了 有 
开源 社区 版 的 所 有 功能 外 ， 还 具备 这 些 特 点 : 计算 机 集群 管理 控制 台 、 数 据 库 当 机 恢复 、 在 
线 数据 库 Schema 修 改 、 在 线 数据 库 节点 重新 加 入 以 及 命令 日 志 等 。 


和 3.8 分布 式 缓存 系统 


在 数据 驱动 的 Web 开 发 中 ， 经 常 要 重复 从 数据 库 中 取出 相同 的 数据 ， 这 种 重复 极 大 地 
增加 了 数据 库 负载 。 缓 存 是 解决 这 个 问题 的 好 办 法 。 现 阶段 比较 流行 的 分 布 式 缓存 系统 有 
Memcached 、Ehcache 、0SCache 、JSC、Jmemcached 和 Tcache 等 。 

下 面 简单 介绍 一 下 Memcached 缓 存 技术 。 

1. Memcached 简 介 


Memcached 是 由 Danga Interactive 开 发 的 一 个 高 性 能 分 布 式 的 内 存 对 象 缓存 系统 ， 在 动态 
应 用 中 可 以 帮助 访问 速度 提升 和 使 数据 库 负载 减少 9。 通过 在 内 存 中 对 一 个 统一 的 巨大 的 hash 
表 的 维护 ，Memcached 可 以 用 来 存储 包括 视频 、 图 像 、 文 件 和 数据 库 检索 结果 等 多 种 格式 的 
数据 。Memcached 缓 存 技 术 的 特点 是 : 它 的 缓存 是 一 种 分 布 式 的 ， 能 够 让 不 同 主机 上 的 多 个 
用 户 同一 时 间 进 行 访问 。 这 打破 了 共享 内 存 只 能 够 在 单机 使 用 的 局 限 ， 同 时 避免 了 在 使 用 数 
据 库 做 相似 事情 的 时 候 ， 磁 盘 开 销 以 及 阻塞 现象 的 发 生 。 


@® http://blog.csdn.net/webwalker/article/details/1584551 
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2. Memcached 的 使 用 


Memcached 服 务 器 端的 安装 ( 系统 服务 安装 ) 步骤 如 下 。 
(1 ) 下 载 文 件 : memcached 1.2.1 for Win32 binaries (Dec 23， 2006)。 
(2 ) 将 文件 解压 缩 到 c:\memcached 目 录 。 
(3 ) 在 命令 行 输入 “c:\memcached\memcached.exe -d install”。 
(4 ) 在 命令 行 输入 “ci\\memcached\memcached.exe -d start”。 该 命令 将 启动 Memcached， 
默认 监听 端口 是 11211。 通 过 执行 memcached.exe - h 命 令 能 够 查看 其 帮助 。 
.NET memcached client library 的 安装 B 
下 载 并 安装 文件 : ”https://sourceforge.net/projects/memcacheddotnet/， 里 面 有 .netl.1 与 .net2.0 
两 个 版 本 。 
Memcached 的 应 用 方法 如 下 。 
(1 ) 将 Commons.dll，ICSharpCode.SharpZipLib.dll，log4net.dll Memcached.ClientLibrary.dll 
等 放 人 bin 目 录 中 。 
(2 ) 引用 Memcached.ClientLibrary.dll。 
(3 ) 代码 如 下 。 
namespace Memcached.MemcachedBench 
{ 
using System; 
using System.Collections; 
using Memcached.ClientLibrary; 
public class MemcachedBench 
{ 
[STAThread] 
public static void Main(String[] args) 
{ 
SEringUll sorverlist = 1 9 E000- 3 T1211 100.0.132.1121L "TY> 
// 初 始 化 池 
SockIOPool pool = SockIOPool.GetInstance () 7 
pool.SetServers (serverlist); 
pool.InitConnections = 3; 
pool.MinConnections = 3; 
pool.MaxConnections = 5; 
pool.SocketConnectTimeout = 1000; 
pool.SocketTimeout = 3000; 
pool.MaintenanceSleep = 30; 
pool.Failover = true; 
pool.Nagle = false; 


pool.Initialize(); 
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// 获得 客户 端 实例 


MemcachedClient mc 


new MemcachedClient (); 


false; 


mc.EnableCompression 
Console.WriteLine("-—————————-——— 
mc.Set("test", "my value"); 
key 是 "test" 


if (mc.KeyExists("test")) 


Console.WriteLine ("test is Exists"); 


Console.WriteLine (mc.Get ("test") .Tostring()); 


else 

Console.WriteLine("test not Exists"); 
Console.ReadLine(); 

mc.Delete ("test"); // 移 除 缓存 中 key 为 test 的 项 目 


if (mc.KeyExists("test")) 


Console.WriteLine ("test is Exists"); 


Console.WriteLine (mc.Get ("test") .ToString()) 7 
else 


Console.WriteLine ("test not Exists"); 


Console.ReadLine (); 


SockIOPool .GetInstance() .Shutdown (); 


运行 结 


果 如 图 3.22 所 示 - 了 


file:///C: /Docaments and SettiaES 


(4) 


// 存 储 数据 到 缓存 服务 器 ， 这 里 将 字符 串 "my value" 缓 存 ， 


// 测 试 缓存 存在 key 为 Lest 的 项 目 


// 在 缓存 中 获取 key 为 test 的 项 目 


// 关 闭 池 ， 关闭 sockets 


图 3.22 ”运行 结果 


© http://blog.csdn.net/webwalker/article/details/1584551 
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3. Memcached 缓 存 系统 的 优 缺 点 


提高 了 访问 获取 数据 的 速度 ， 也 可 用 于 加 速 Web 应 用 。 但 与 此 同时 Memcached 的 缓存 系 
统 没有 特殊 的 安全 机 制 ， 需 要 自己 控制 安全 。 
适用 场景 : 缓存 对 性 能 影响 较 大 的 数据 、 缓 存 变动 不 是 很 频繁 的 数据 。 


上 3.9 练习 


1. 什么 是 NoSQL? 

2. 什么 是 关系 型 数据 库 ? 

3. 关系 型 数据 库 的 优点 与 缺陷 是 什么 ? 

4. NoSQL 的 优点 与 缺陷 是 什么 ? 

5. 关系 型 数据 库 与 NoSQL 之 间 的 区 别 与 联系 是 什么 ? 

6. 什么 是 NoSQL 的 三 大 基石 ? 

7. CAP 的 三 个 特性 是 什么 ? 

8. 分 布 式 系统 为 什么 不 能 同时 满足 CAP 理 论 的 三 个 特性 呢 ? 

9. ACID 与 BASE 的 区 别 是 什么 ? 

10. NoSQL 的 典型 分 类 是 什么 ? 

11. 什么 是 键 值 数据 库 ? 

12. Bigtable 的 特点 是 什么 ? 它 属 于 NoSQL 四 大 分 类 中 的 哪 一 类 ? 
13. 什么 是 HBase? 它 的 特点 有 什么 ? 

14. 什么 是 图 存 数 据 库 ? 

15. 典型 的 文档 数据 库 有 哪些 ?请 简单 描述 一 下 这 些 文档 数据 库 的 特点 与 工作 原理 或 场景 。 
16. 什么 是 NewSQI 数 据 库 ? 

17. 简要 说 明 什么 是 分 布 式 缓存 系统 。 
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第 4 章 


Hadoop 和 MapReduce 


大 数据 是 当今 整个 世界 的 趋势 。 全 球 每 时 每 刻 都 有 大 量 的 数据 生成 ， 当 人 们 在 给 别人 
发 微 信 、 分 享 视频 、 上 传 拍照 、 更 新 社交 状态 、 转 发 他 人 微 博 或 者 论坛 上 发 帖 的 时 候 ， 这 些 
操作 都 会 使 得 机 器 设备 产生 和 保留 数据 。 面 对 这 样 迅 猛 增长 的 数据 ， 世 界 上 一 些 处 于 市 场 领 
导 地 位 的 互联 网 公司 ， 如 谷歌 、 雅 虎 、BAT ( 百度 、 阿 里 巴巴 、 腾 讯 ) 等 感受 到 了 巨大 的 压 
力 。 这 些 公 司 的 人 员 需 要 分 析 处 理 大 如 TB 、PB 甚 至 EB 级 别 的 数据 量 , 来 得 到 一 些 有 价值 的 
信息 。 比 如 哪些 产品 的 销量 比较 大 ， 哪 些 新 闻 的 点 击 率 高 ， 哪 些 广告 更 能 获得 用 户 的 喜爱 。 
但 目前 出 现 的 问题 是 ,传统 的 工具 越 来 越 难以 对 如 此 规模 的 数据 集 进行 存储 、 计 算 和 分 析 ， 
这 也 是 大 数据 时 代 的 一 个 很 明显 的 特征 。 所 以 Hadoop 出 现 了 ， 它 正 是 为 了 解决 大 数据 时 代 方 
便 大 量 数据 存储 和 处 理 而 研发 出 来 的 框架 ， 是 大 数据 最 重要 的 技术 。 


和 4.1 Hadoop 简 介 


什么 是 Hadoop 呢 ?Hadoop 是 由 Apache 基 金 会 开发 i 
出 来 的 一 个 开源 的 软件 框架 ， 简 单 地 说 ，Hadoop 是 一 个 {re 
分 布 式 系统 和 并 行 执行 环境 ,便于 存储 和 处 理 大 规模 数 
据 的 开源 软件 平台 图 4.1 是 Hadoop 的 图 标 。 Hp 四 
Hadoop 有 四 个 主要 的 特点 ,分 别 是: 扩展 能 力 强 、 成 本 低 、 高 效率 和 可 靠 。 
@ 扩展 能 力 强 (Scalable ) : 能 轻易 地 存储 和 处 理 千 兆 字 节 ( PB ) 的 大 数据 。 
@ 成 本 低 (Economical ) : 通过 使 用 数 千 个 普通 机 器 组 成 的 服务 器 群 来 进行 数据 分 发 以 
及 进行 处 理 等 工作 、 代 替 了 性 能 高 的 昂贵 机 器 。 
@@ 高 效率 ( Efficient ) : 通过 分 工 合作 的 方式 将 数据 分 发 到 各 个 机 器 上 ， 由 Hadoop 并 行 
地 处 理 它们 ， 这 使 得 整个 处 理 过 程 变 得 非常 的 快速 。 
@ 可 靠 (Reliable ) : Hadoop 具 有 数据 自动 备份 和 维护 机 制 ， 能 有 效 解决 任务 失败 和 数 
据 丢 失 后 的 恢复 和 重新 部 署 计 算 任务 问题 。 
Hadoop 目 前 具有 很 多 项 目 ， 包 括 HBase、Pig、Common 、Avro 、ZooKeeper， 以 及 被 称 为 核 
心 的 Hadoop 分 布 式 文件 系统 HDFS 和 MapReduce 等 ， 项 目 组 成 如 图 4.2 所 示 。 
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| 安装 、 部 署 、 配 置 、 监 控 、 告 警 和 访问 控制 


Sr as 


儿 
HBsdr | 和 
实时 、 分 布 式 、 高 维 数据 库 


图 4.2 ”Hadoop 的 项 目 结构 图 


4.2 Hadoop 的 体系 结构 


正如 前 面 所 提 到 的 ，HDFS 和 MapReduce 是 Hadoop 的 两 大 核心 ， 下 面 主 要 详细 介绍 HDFS 
和 MapReduce。 


4.2.1 HDFS 的 体系 结构 


HDFS 是 Hadoop 分 布 式 文件 系统 ( Hadoop Distributed File System ) 的 缩写 。 它 是 Hadoop 体 
系 中 数据 存储 和 管理 部 分 的 关键 。HDFS 有 高 度 容错 的 功能 ， 能 检查 出 哪些 部 件 发 生 了 故障 
并 对 这 些 部 件 进行 处 理 ， 因 此 它 可 以 设计 部 署 在 价格 低廉 的 硬件 上 。HDFS 简化 了 文件 的 一 
致 性 模型 ， 采 用 流 式 数据 访问 ， 实 现 了 高 数据 吞吐 量 ， 更 适用 于 具有 大 规模 数据 集 的 应 用 程 
序 。HDFS 降 低 了 对 可 移植 操作 系统 接口 (POSIX，Portable Operating System Interface ) 的 要 
求 ， 实 现 了 对 文件 系统 中 的 数据 的 
流 式 访 问 。HDFS 是 Hadoop 的 基础 
架构 之 一 。 一 个 HDFS 集 群 有 两 类 节 
点 ,它们 以 管理 者 一 工作 者 模式 进 
行 运作 ， 即 由 一 个 NameNode ( 管理 
者 ) 和 若干 个 DataNode ( 工作 者 ) 


构成 。 此 外 还 有 与 这 两 个 角色 之 间 客户 端 
作为 沟通 桥梁 的 Client ( 客户 端 ) 。 图 4.3 HDFS 体 系 结构 图 
图 4.3 是 HDFS 体 系 结构 图 。 


接 下 来 对 其 节点 进行 详细 介绍 。 
1. NameNode 
NameNode 在 系统 中 充当 “管理 者 ”的 角色 ， 主 要 负责 文件 系统 的 NameSpace ( 命名 空 


间 ) 的 管理 ， 以 及 管理 客户 端 对 文件 访问 的 一 些 常用 的 操作 ， 比 如 文件 的 打开 、 关 闭 、 保 存 
或 是 移动 文件 等 ， 与 此 同时 它 还 负责 把 数据 块 映射 至 对 应 的 DataNode 上 。 此 外 ，NameNode 
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还 负责 维护 文件 系统 树 ， 以 及 这 棵 系统 树 内 的 所 有 文件 和 目录 。 当 它 保存 在 本 地 磁盘 上 时 ， 
有 命名 空间 镜像 文件 和 编辑 日 志文 件 这 两 种 文件 形式 。NameNode 主 要 负责 去 记录 数据 块 的 
信息 ， 只 是 它 并 不 具备 永久 保存 的 功能 ， 因 为 当 系统 启动 时 ，NameNode 上 的 信息 会 再 次 被 
建立 ， 这 是 由 数据 节点 完成 的 。 也 就 是 说 ， 脱 离 了 NameNode， 整 个 文件 系统 就 会 陷入 瘫 
痪 。 所 以 ， 对 NameNode 实 现 容错 功能 是 非常 重要 的 。Hadoop 特 地 为 此 提供 了 两 种 机 制 : 第 
一 种 机 制 是 对 写 入 的 文件 进行 备份 ; 第 二 种 机 制 是 运行 一 个 辅助 的 NameNode ( 即 Secondary 
NameNode ) 用 来 时 刻 检测 HDFS 的 集群 状态 ， 以 减少 数据 丢失 的 几率 。 
2. DataNode 


DataNode 在 文件 系统 中 作为 “工作 者 ”的 角色 ， 负责 存储 并 检索 数据 块 ， 每 个 文件 都 被 
分 为 很 多 个 数据 块 ， 这 些 数 据 块 存储 在 DataNode 上 。 它 也 负责 完成 客户 端 访 问 文件 的 读 写 操 
作 ， 定 期 向 NameNode 发 送 它 们 所 存储 的 数据 块 的 列表 ， 并 在 NameNode 的 统一 调度 下 开展 工 
作 ， 如 数据 块 的 创建 、 移 动 、 复 制 和 删除 等 。 


3. Client 


Client 代 表 用 户 通 过 与 NameNode 和 DataNode 来 交互 访问 整个 文件 系统 。 因 为 Client 提 供 了 
一 些 文件 系统 接口 ， 所 以 在 编写 程序 的 时 候 ， 不 用 知道 DataNode 和 NameNode 的 内 部 详细 情 
况 ， 就 可 以 编写 程序 进行 操作 ， 实 现 所 需 的 功能 。 


4.2.2 MapReduce 的 体系 结构 


MapReduce 是 一 种 针对 大 规模 数据 集 ( 通常 都 是 大 于 1TB ) 并 行 计算 而 设计 的 编程 模型 。 
MapReduce 、Common 、HDFS 属 于 Hadoop 发 展 初 期 的 三 个 组 件 。 在 Hadoop 体 系 中 ， 可 以 利用 
MapReduce 模 型 对 任务 进行 分 配 ， 使 分 配 后 的 任务 可 在 上 千 台 商用 机 器 组 成 的 集群 上 进行 并 
行 计算 ， 加 上 本 身 具 有 的 高 容错 的 特性 ， 实 现 了 Hadoop 对 任务 的 并 行 处 理 功能 。 

MapReduce 主 要 分 为 Map ( 映射 ) 和 Reduce ( 归 约 ) 两 个 步骤 ， 其 中 Map 负 责 对 数据 集 上 
的 独立 元 素 进 行 特定 的 操作 ， 生 成 Key-Value ( 键 - 值 ) 对 形式 的 中 间 结 果 ; Reduce 则 负责 对 
中 间 结 果 中 相同 “ 键 ”的 所 有 “ 值 ”进行 合并 规约 ， 并 且 得 到 最 后 的 结果 。MapReduce 这 样 
的 功能 划分 和 处 理 步 又， 在 大 量 机 器 组 成 的 分 布 式 并 行 操作 的 环境 里 进行 数据 计算 处 理 显 得 
尤为 合适 。 因 此 ， 开 发 人 员 需 要 做 的 只 是 编写 Map 和 Reduce 两 个 函数 ， 即 可 完成 一 个 简单 的 
分 布 式 程序 的 设计 工作 。 这 从 某 种 程度 上 ， 为 程序 员 提 供 了 很 大 的 便利 一 一 即使 他 们 不 熟悉 
分 布 式 并 行 计算 系统 编程 的 具体 细节 ， 也 可 以 顺利 地 在 分 布 式 的 系统 上 运行 其 编写 的 代码 。 

简单 来 说 ，HDFS 是 负责 分 布 式 存储 数据 的 ，MapReduce 是 负责 分 布 式 数据 计算 的 ， 因 此 
这 也 就 是 为 什么 Hadoop 作 为 很 多 分 布 式 计算 的 平台 的 原因 了 。 


4.2.3 ”其 他 组 件 

简单 介绍 一 下 其 他 组 件 。 

1. HBase 

HBase 是 一 个 动态 的 数据 库 ， 它 针对 结构 化 的 数据 ， 具 有 可 伸缩 、 高 可 靠 、 高 性 能 、 
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分 布 式 和 面向 列 的 特点 。 与 传统 关系 数据 库 不 同 的 是 ，HBase 采用 了 增强 的 稀 琉 排序 映射 表 
( Key/Value ) 这 样 一 种 谷歌 BigTable 的 数据 模型 。 其 中 ，HBase 的 键 由 三 个 部 分 组 成 ， 分 别 
是 行 关 键 字 、 列 关键 字 和 时 间 戳 。 同 时 ，HBase 也 提供 了 一 些 对 大 数据 的 操作 访问 ， 比 如 随 
机 和 实时 的 读 写 等 。 另 外 ， 也 能 用 MapReduce 去 处 理 在 HBase 中 存储 的 数据 ， 这 样 一 来 就 能 
将 数据 的 存储 和 并 行 计算 进行 有 机 地 结合 。 

2. Pig 


Pig 是 一 个 基于 Hadoop 的 平台 ， 主 要 负责 分 析 和 评估 大 型 数据 集 。 它 使 得 利用 Hadoop 来 
进行 数据 分 析 的 条 件 变 得 更 加 简单 ， 为 此 专门 设计 了 一 个 高 级 的 、 面 向 领域 为 特征 的 抽象 语 
言 ， 即 Pig Latin。 有 了 Pig Latin， 与 数据 分 析 相 关 的 工作 人 员 能 够 对 结构 多 样 且 相互 之 间 有 联 
系 的 数据 分 析 任 务 进行 编码 ， 将 数据 分 析 工 作 转化 成 基于 Pig 操 作 的 数据 流 脚本 ， 并 且 再 将 该 
数据 流 脚本 编码 为 MapReduce 工 作 链 ,使 其 能 在 Hadoop 的 环境 里 运行 。 与 Hive 相 同 的 地 方 在 
于 ，Pig 也 能 够 使 分 析 和 评估 大 型 数据 变 得 更 加 简单 。 


3. Common 


Common ( Hadoop 0.20 之 前 称 为 Core ) 是 一 种 能 为 Hadoop 结 构 中 的 其 他 项 目 提 供 常 用 工具 
的 项 目 ， 这 些 工 具 大 致 有 : 远程 调用 、 抽 象 文件 系统 、 系 统 配置 工具 和 序列 化 机 制 等 。 这 些 
工具 提供 了 一 些 基础 服务 ， 帮 助 通 用 硬件 完成 云 计算 环境 的 搭建 ， 同 时 包含 了 一 些 软件 开发 
时 使 用 的 API ( 应 用 程序 接口 ) 。 

4. Avro 


Avro 是 一 个 数据 序列 化 的 系统 。Avro 能 够 通过 转换 ， 将 具有 结构 化 或 者 非 结 构 化 的 复杂 
格式 类 型 的 数据 或 对 象 变 成 其 他 格式 。 这 些 格式 最 大 的 特点 是 容易 保存 和 传送 ， 这 与 别 序列 
化 机 制 很 像 。Avro 的 主要 设计 目的 是 希望 能 够 支持 一 些 以 数据 密集 型 为 特征 的 程序 ， 这 样 能 
有 利于 进行 大 规模 的 数据 存储 与 交换 。 此 外 ， 它 还 提供 了 许多 强大 的 功能 ,包括 保存 永久 性 
数据 文件 集合 、 集 成 简单 动态 语言 、 提 供 快 速 的 可 压缩 的 二 进 制 数 据 格式 、 远 程 过 程 调用 以 
及 多 样 的 数据 结构 类 型 等 。 


5. ZooKeeper 


ZooKeeper 是 一 个 分 布 式 框架 ， 主 要 用 于 处 理 分 布 式 计算 中 出 现 的 一 致 性 问题 。 所 谓 一 致 
性 ， 是 指 事务 的 基本 特征 或 特性 相同 ， 其 他 特性 或 特征 相 类 似 ， 比 如 保持 数据 格式 的 统一 。 
在 分 布 式 系统 中 ， 怎 样 对 某 个 结果 的 某 些 特征 保持 一 致 ， 是 非常 值得 考虑 的 问题 。 所 以 ， 
ZooKeeper 提 供 了 很 多 解决 分 布 式 应 用 中 出 现 的 数据 操作 问题 的 服务 方案 和 管理 计划 ， 比 如 命 
名 一 致 、 状 态 协同 服务 以 及 集群 、 分 布 式 程序 项 目 配置 的 管理 等 。ZooKeeper 良 好 地 协调 了 
Hadoop 中 其 他 项 目的 工作 并 且 也 逐渐 成 为 它们 的 主要 部 件 ， 因 此 它 的 重要 性 也 日 益 增加 。 


4.2.4 ”Hadoop 的 I/O 操 作 


对 于 数据 的 输入 和 输出 ，Hadoop 设 计 了 一 系列 原子 操作 ， 其 中 的 一 些 诸如 数据 完整 性 
保持 和 数据 压缩 之 类 的 重要 技术 ， 在 用 于 操作 海量 数据 时 ， 显 得 非常 重要 。 此 外 由 其 他 的 
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Hadoop 工 具 或 者 应 用 程序 接口 所 组 成 的 功能 模块 也 能 应 用 于 开发 分 布 式 系统 和 结构 ， 比 如 数 
据 的 序列 化 机 制 以 及 在 盘 ( on-disk ) 数据 结构 。 


1. 数据 完整 性 


在 传输 过 程 中 要 保证 数据 不 发 生 缺 失 和 顺序 颠倒 等 问题 ( 即 数据 完整 性 ) 是 非常 重要 
的 。 通 常 ， 确 保 数据 完整 性 的 技术 有 以 下 三 种 。 

@ CRC-32 循 环 宛 余 校 验 技术 

@ 奇偶 校 验 技术 

@ ECC 校 验 纠 错 技 术 

因为 Hadoop 采 用 HDFS 作 为 其 默认 的 文件 系统 ， 所 以 需要 讨论 两 部 分 的 数据 完整 性 : 
HDFS 的 数据 完整 性 和 本 地 文件 系统 的 数据 完整 性 。 

(1 ) HDFS 的 数据 完整 性 

HDFS 会 在 数据 传输 的 以 下 三 个 阶段 检验 校 验 和 。 

@ DataNode 获 得 数据 后 ， 保 存 数据 前 

一 般 说 来 ，DataNode 所 得 到 的 数据 有 两 种 情况 : 一 是 使 用 者 利用 客户 端 完 成 上 传 数 据 的 
操作 ; 二 是 DataNode 在 其 他 的 数据 节点 上 获得 的 内 容 。 通 常客 户 端 在 上 传 数 据 时 会 将 数据 传 
到 一 个 专用 的 数据 节点 管道 中 ， 在 该 管道 的 最 后 一 个 数据 节点 去 检验 校 验 和 。 

@ 客户 端 访问 DataNode 上 的 数据 内 容 时 

此 时 会 进行 校 验 和 校对 ,方法 是 将 DataNode 上 存储 的 校 验 和 进行 检测 。 

@ DataNode 的 后 台 守 护 线程 对 其 进行 定期 检查 时 

DataNode 会 在 后 台 运 行 一 个 DataBlockScanner ( 数据 块 检测 程序 ) ， 隔 一 段 时 间 就 会 检测 
保存 在 DataNode 上 的 所 有 数据 块 ， 以 防止 一 些 由 物理 存储 介质 ( 如 硬盘 ) 中 因为 位 衰减 所 导 
致 的 数据 丢失 。 

(2 ) 本 地 文件 系统 的 数据 完整 性 

Hadoop 的 本 地 文件 系统 负责 客户 端的 校 验 工作 ， 因 此 客户 端 也 需要 负责 本 地 文件 系统 的 
数据 完整 性 。 详 细 的 操作 是 ,每 当 Hadoop 建 立 一 个 文件 a 时，Hadoop 就 会 同一 时 刻 在 同一 个 
文件 夹 地 址 下 创建 的 隐藏 文件 a.cre， 这 个 隐藏 文件 中 包含 有 文件 的 数据 校 验 和 。 根 据 具体 数 
据 文件 的 字 节 大 小 ， 每 隔 512 个 字 节 便 会 产生 4 个 字 节 的 校 验 和 ， 如 果 要 改变 每 个 校 验 和 所 针对 
的 文件 的 大 小 ， 开 发 人 员 可 以 在 core-default.xml 中 通过 改变 io.bytes.per.checksum 的 值 来 实现 。 

此 外 ,数据 恢复 策略 也 是 值得 开发 人 员 注 意 的 地 方 。 当 进行 数据 读 取 的 操作 时 ， 如 果 发 
现 某 个 数据 块 即将 失效 ， 那 么 作为 与 读 取 操 作 相关 的 部 分 ，DataNode 和 NameNode 都 会 采取 复 
制 完整 备份 的 方式 来 恢复 此 数据 块 ， 并 且 在 恢复 成 功 的 基础 上 设置 标签 ， 以 防止 此 数据 块 被 
其 他 的 角色 进行 重复 恢复 的 操作 。 

2. 数据 的 压缩 


文件 压缩 对 于 任何 大 容量 的 分 布 式 存储 而 言 意 义 重 大 ， 因 为 文件 压缩 具有 两 个 优点 ， 减 
小 文件 存放 所 需要 的 空间 ; 提高 文件 的 传送 速度 。 

许多 压缩 格式 和 压缩 算法 在 Hadoop 中 同样 适用 ， 只 是 不 同 的 算法 有 各 自 不 同 的 特点 ， 如 
表 4.1 所 示 。 
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表 4.1 Hadoop 支 持 的 压缩 格式 及 特点 
压缩 格式 工具 算法 文件 扩展 名 多 文件 可 分 割 性 
DEFLATE 无 DEFLATE ellaie 不 未 
Czip [gip DEFLATE 沈 不 未 
Bzip2 baip2 biip2 bz2 不 | 是 
LZ0 | lnp LZ0 lz0 孙 | 有 


(1 ) 压缩 与 输入 分 割 

通常 需要 对 那些 由 MapReduce 处 理 的 数据 进行 压缩 ， 而 在 压缩 时 ， 用 户 可 以 选择 不 同 的 
压缩 格式 。 对 于 比较 大 的 压缩 包 来 说 ， 如 果 该 压缩 格式 支持 分 割 功能 的 话 ， 对 数据 存储 是 非 
常 有 利 的 。 例 如 ， 一 个 gzip 格 式 的 压缩 文件 ， 它 压缩 后 有 1GB， 通 过 HDFS 将 这 个 压缩 文件 分 
为 16 块 。 然 而 想 再 对 每 一 个 块 进行 细 分 操作 则 是 无 法 完成 的 ， 因 为 gzip 格 式 的 压缩 文件 不 支 
持 分 割 功能 。 因 此 ， 如 果 要 读 取 它 的 MapReduce 分 割 文件 ， 会 导致 读 取 到 16 块 大 小 相同 的 文 
件 的 情况 ， 导 致 运行 的 时 间 变 长 。 因 此 ， 总 的 原则 是 ， 需 要 经 过 测试 ， 才 可 以 决定 某 种 压缩 
格式 是 否 具有 分 割 机 制 。 如 同 以 上 所 提 到 的 ， 对 于 占用 空间 大 的 文件 应 该 选择 支持 分 割 的 压 
缩 形 式 ， 如 bzip2。 

(2 ) 在 MapReduce 程 序 中 使 用 压缩 

在 MapReduce 中 使 用 压缩 非常 简单 ， 只 需要 在 它 进 行 Job 配 置 时 ， 设 定好 conf 的 内 容 就 可 以 了 。 

设置 Map 处 理 后 压缩 数据 的 代码 如 下 。 


JobConf conf = new Jobconf () 


conf.setBoolean ("mapred.compress.map.output",true); 

对 于 一 般 情况 来 说 ， 压 缩 是 有 利于 文件 存储 和 传输 的 ， 无 论 是 对 最 终结 果 进 行 压缩 亦 
或 是 对 Map 处 理 后 的 中 间 结 果 进 行 压缩 。 

3. 序列 化 

(1 ) 什么 是 Hadoop 的 序列 化 

序列 化 ( serialization ) 指 的 是 将 结构 化 对 象 转 为 字 节 流 的 过 程 ， 这 样 有 利于 通过 互联 网 
进行 传送 或 写 人 永久 存储 的 介质 中 。 反 序列 化 则 是 序列 化 的 逆 过 程 ， 指 的 是 将 字 节 流转 化 为 
结构 化 对 象 的 操作 。 

序列 化 在 两 大 领域 中 经 常 出 现 : 一 个 是 进程 间 通信 ， 另 一 个 是 数据 持久 性 存储 。 

Hadoop 使 用 远程 过 程 调用 来 达到 进程 间 通 信 的 目的 。 通 常情 况 下 ， 远 程 过 程 调用 的 序列 
化 机 制 有 如 下 这 些 特 征 。 

@@ 紧凑 (Compact) : 即 易 于 通过 网 络 进行 传送 ， 并 且 充 分 利用 网 络 传输 速率 资源 和 存 

@ 快速 ( Fast ) : 即 Hadoop 的 序列 化 和 反 序 列 化 的 能 力 较 强 ， 效 果 较 好 。 

@ 扩展 性 (Extensible ) : 即 这 些 进程 间 通 信和 所 用 到 的 协议 要 能 有 适应 变化 的 能 力 ， 能 够 

适应 新 的 要 求 。 
@ 互 操作 性 ( Interoperable ) : 即 通过 设计 一 种 共同 遵守 的 格式 的 方式 ， 使 得 客户 端 及 
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服务 器 端的 操作 不 依赖 于 某 种 固定 的 语言 。 

序列 化 在 Hadoop 中 是 很 重要 的 一 种 操作 ,因为 用 户 要 通过 序列 化 的 操作 来 存储 文件 和 传 
送 数据 。 对 于 具体 的 操作 方式 ，Hadoop 中 并 没有 采用 Java 所 具有 的 序列 化 机 制 ， 而 是 自己 重 
新 写 了 一 个 序列 化 机 制 Writable。Writable 具 有 紧凑 、 快 速 的 特点 ， 所 以 使 用 起 来 更 加 方便 。 

(2 ) Writable 接 口 

作 为 Hadoop 的 核心 Hadoop 通 过 Writable 定 4 了 Hadoop 中 一 些 基 本 的 数据 类 型 和 基本 操 
作 。 通常 ,不 管 是 上 传 下 载 数 据 ， 还 是 运行 相关 的 MapReduce 程 序 ，Writable 类 的 适用 范围 非 
常 广 。Writable 类 的 结构 如 图 4.4 所 示 。 


Primitives Others 
BooleanWritable NullWritable 
ByteWritable Text 
IntWritable BytesWritable 
interface) a Ce 1 VIntWritable MDSHash 
orgapache.hodoopiio| | [Da ompae?e FloatWritable ObjectWritable 
1 
| LongWritable GenericWritable 
| VLongWritable 
i ArrayWritable = 
! DoubleWritable 
全 = TwoDArrayWritable 
号 -1AbstractMapWritable< MapWritable 
SortedMapWritable 


图 4.4 ”Writable 类 的 结构 图 

@ Hadoop 的 比较 器 

WritableComparable 是 Hadoop 中 十 分 关键 的 接口 类 。 它 是 一 个 比较 器 ( 一 种 能 够 比较 不 同 
的 数据 项 之 间 的 大 小 关系 的 装置 ) 。 

@ Writable 类 中 的 数据 类 型 

主要 是 Java 的 基本 数据 类 型 ， 例 如 boolean、byte、int、float 等 。 

@ 其 他 类 

NullWritable: 这 是 一 个 占 位 符 ， 其 序列 化 长 度 为 0。 

BytesWritable 和 ByteWritable: BytesWritable 是 一 个 二 进 制 数据 数组 的 封装 ; ByteWritable 
是 一 个 二 进 制 数据 封装 。 

Text: Hadoop 是 对 string 类 型 的 重 写 ， 它 使 用 的 标准 是 UTF-8 编 码 。 

ObjectWritable: 这 是 一 种 多 类 型 的 封装 。 

ArrayWritable 和 TwoDArrayWritable: 分 别 是 针对 数组 和 二 维 数组 的 构建 的 数据 类 型 。 

MapWritabhle 和 SortedMapWritable: 分 别 是 javautilMap0 和 java.util.SortedMap(0 的 实现 。 

CompressedWritable: 保存 压缩 数据 的 数据 结构 。 

GenericWritable: 通用 的 数据 封装 类 型 。 

VersionedWritable: 一 个 抽象 的 版 本 检查 类 。 
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4. 基于 文件 的 数据 结构 


Hadoop 定 义 了 一 些 基于 文件 的 数据 结构 ， 用 来 满足 MapReduce 编 程 框架 的 要 求 ， 其 中 核 
心 是 SequenceFile 和 MapFile 这 两 种 类 型 。Map 过 程 所 输出 的 中 间 结 果 就 是 由 这 两 种 数据 类 型 表 
示 的 ， 其 中 MapFile 是 经 过 了 排序 并 且 具 有 索引 功能 的 SequenceFile。 下 面 分 别 进行 介绍 。 

(OM SequenceFile 

SequeceFile 是 由 Hadoop 的 应 用 程序 接口 所 提供 的 一 种 二 进 制 文件 类 型 。 这 种 二 进 制 文件 
直接 将 键 - 值 对 进行 序列 化 并 保存 到 文件 中 。 它 所 记录 的 是 键 - 值 对 的 清单 ， 由 于 它 是 序列 化 
之 后 的 二 进 制 文件 ， 因 此 用 户 不 能 直接 查看 结果 ， 但 能 够 通过 输入 命令 来 查看 文件 的 内 容 。 

在 sequenceFile 中 有 以 下 三 种 不 同类 型 的 键 - 值 对 。 

@ 未 压缩 的 key/value 对 。 

@ 记录 压缩 的 key/value 对 ( 只 有 value 被 压缩 ) 。 

@ Block 压 缩 的 key/value 对 。 

SequenceFile 类 具有 如 下 特点 。 

@ 可 压缩 性 : 该 类 型 文件 能 够 被 压缩 ， 而 且 能 定制 为 基于 Record 或 Block 压 缩 ( 其 中 

Block 级 压缩 性 能 较 优 ) 。 

@ 本 地 化 任务 支持 : 因为 文件 支持 被 切割 ， 所 以 执行 MapReduce 任 务 时 数据 的 本 地 化 的 

情况 应 该 是 非常 好 的 。 

@ 难度 低 : 因为 Hadoop 框 架 提 供 了 应 用 程序 接口 ， 所 以 很 容易 就 能 够 修改 业务 逻辑 。 

(@) MapFile 

MapFile 的 使 用 与 SequenceFile 很 相像 ， 但 不 同 的 是 ，SequenceFile 生 成 的 是 一 个 文件 ， 而 
这 个 MapFile 生 成 的 是 一 个 文件 夹 。 正 如 前 面 所 提 及 的 ， 它 是 经 过 排序 并 且 具 有 索引 功能 的 
SequenceFile， 因 此 用 户 能 够 通过 键 值 进行 检索 。 

MapFile 由 包含 两 部 分 ， 分 别 是 data 和 index。index 指 的 是 文件 的 数据 索引 ， 里 面 含 有 每 个 
记录 的 键 值 以 及 该 记录 在 文件 中 的 偏 移 量 大 小 。 在 访问 MapFile 的 时 候 ， 首 先 在 内 存 中 加 载 
索引 文件 ， 并 且 利用 索引 的 对 应 关系 能 够 立刻 找到 指定 的 记录 文件 在 哪里 。 所 以 ，MapFile 的 
检索 效率 比 SequenceFile 高 ， 但 其 劣势 是 必须 要 牺牲 掉 一 部 分 的 内 存 来 保存 它 的 index 值 。 

@ 其 他 文件 类 型 

ArrayFile 用 于 存储 从 Integer 到 值 的 对 应 关系 。 

SetFile 与 Java 中 的 set 作 用 相似 ， 只 是 一 个 键 的 集合 ， 而 没有 任何 值 。 

BloomMapFile 是 具有 过 滤 功 能 的 MapFile- 


4.2.5 “Hadoop 与 分 布 式 开 发 


什么 是 分 布 式 系统 ? 分 布 式 系统 主要 是 指 能 够 进行 分 布 式 处 理 的 软件 系统 ， 即 多 台 机 器 
在 网 络 连通 的 情况 下 能 一 起 工作 的 软件 系统 。 分 布 式 系统 主要 有 : 分 布 式 的 操作 系统 、 文 件 
系统 、 程 序 设计 语言 及 其 编译 ( 解释 ) 系统 和 数据 库 系统 等 。Hadoop 属 于 文件 系统 ， 具 有 
部 分 数据 库 的 功能 ; HDFS 负 责 数 据 的 存储 和 管理 ; 而 MapReduce 这 个 编程 模型 为 用 户 编写 
Hadoop 并 行 应 用 程序 的 运行 提供 了 极 大 的 便利 。 接 下 来 主要 谈 谈 在 Hadoop 基 础 上 进行 分 布 式 


112 | 大 数据 导论 : 关键 技术 与 行业 应 用 最 佳 实践 


并 行 应 用 程序 开发 的 相关 知识 。 

开发 并 行 应 用 程序 ，MapReduce 框 架 必 不 可 少 。 前 文 也 提 及 了 ， 其 主要 原理 是 利用 两 个 
函数 Map 和 Reduce 来 实现 并 行程 序 ， 通 过 一 批 输入 的 键 值 对 的 集合 来 得 到 一 批 更 简练 的 键 值 
对 的 集合 作为 结果 。 详 细 步骤 是 : Map 得 到 一 个 用 户 输入 的 键 值 对 ， 通 过 处 理 产生 中 间 的 键 
值 对 ， 进 行 合 并 之 后 ， 再 用 一 个 迭代 器 把 中 间 值 传递 给 Reduce， 最 后 得 到 一 个 相对 较 小 的 值 
的 集合 。 通 常 每 次 使 用 Reduce 时 输出 的 值 最 多 只 有 1 个 。 

图 4.5 是 MapReduce 的 数据 流 图 ， 这 个 过 程 简单 说 来 就 是 将 整个 大 数据 集合 划分 成 多 个 小 
数据 集 ， 并 且 分 配给 集群 中 的 若干 个 普通 机 器 去 处 理 ， 得 到 一 些 中 间 结 果 ， 接 着 进行 排序 和 
合并 ， 获 得 最 后 的 结果 。 具 有 MapReduce 结 构 的 并 行程 序 内 有 三 个 主要 的 函数 : Map 、Reduce 
和 main， 但 在 这 个 结构 中 ， 需 要 用 户 编写 的 仅仅 是 Map 和 Reduce 两 个 函数 而 已 。 

输入 数据 排序 排序 合并 输出 数据 
考 二 生态 | [Ma 六 | Met- > --> |Reduce| --> |Reduce-out|--> [数据 片段 |--> HDFS 副 本 
玛 气 区 | - -> vp] - -> Moron -> 
r= -- |Reduce| --> |Reduce-out|- -> | 数据 片段 |-->HDFS 副 本 


更 氟 片 氏 |- -> [Map|-->[ Map-out |--> 


图 4.5 ”MapReduce 的 数据 流 图 


上 4.3 ”Hadoop 的 安装 与 配置 
本 节 主 要 讲述 如 何在 两 个 常用 的 操作 系统 ，Windows 和 Linux 上， 安装 和 配置 Hadoop 的 具体 过 程 。 


4.3.1 在 Windows 上 安装 与 配置 Hadoop 

在 Windows 上 运行 Hadoop 比 较 复杂 ， 因 为 首先 必须 安装 Cygwin， 目 的 是 用 于 模拟 Linux 环 
境 ， 然 后 才能 安装 Hadoop。 以 下 是 详细 的 步骤 @。 

1. 安装 JDK 

JDK (Java Development Kit ) 是 开发 和 运行 Java 程 序 的 工具 包 。 不 建议 只 安装 JRE， 而 建 
议 直 接 安装 JDK， 因 为 安装 JDK 时 会 同时 安装 JRE。 再 者 ，MapReduce 程 序 的 编写 和 Hadoop 的 
编译 都 依赖 于 JDK， 仅 有 JRE 是 不 够 的 。JDK 可 在 以 下 地 址 下 载 : 


http://java.sun.com/java se/downloads/index.jsp 

选择 Java SE 即 可 。 

2. 安装 Cygwin 

Cygwin 是 一 个 在 Windows 平 台 上 运行 的 类 UNIX 模 拟 环境 。 在 安装 Cygwin 前 ， 需 先 下 载 
Cygwin 安 装 程序 setup.exe。Cygwin 安装 程序 下 载 地 址 如 下 : 


http://www.cygwin.com/setup.exe 
当然 也 可 以 从 http://www.cygwin.cn/setup.exe 下 载 Cygwin 安装 程序 ， 不 过 如 果 在 安装 过 程 


© http://www.docin.com/p-64136032.html. 
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晶 村 遇 到 如 图 4.6 所 示 的 错误 » 则 只 能 从 http://www.cygwin.com/setup.exe 下 载 。 本 书 安装 程序 下 
载 的 是 Cygwin 1.7.1 版 本 。 


The current ini file is fron a never version of setup.exe. If you have any trouble installing, 
please domload a fresh version fron http://wwr. cygwin. con/setup. exe 


图 4.6 ”错误 提示 信息 


Cygwin 安装 程序 setup.exe 对 存放 的 目录 无 要 求 。 当 setup.exe 程 序 下 载 成 功 后 ， 运 行 setup. 
exe， 会 弹出 如 图 4.7 所 示 的 对 话 框 。 
在 图 4.7 所 示 的 对 话 框 中 ， 直 接 单 击 “下 一 步 ” 按 钮 ， 进 入 如 图 4.8 所 示 的 对 话 框 。 


Cygwin Setup 下 哲 | 民 | Cygwin Setup 


Bygwin Net olorse Setup Frograim Choose whether to inatal ot dowrloed fom the niemel or natal hom fles in 

alocal dheclory 

This selup progyam ia used for the nial installation of he 

Cyown ervionment as well as al subsequerl updates Make 

sure to remember where you +avedt 

The pages that folow wl guide you tough the natalaton FRR 一 一 一 一 一 一 人 
downloadedles wal be kept for future re-use] 

inatall a base set of packages by delaul. You can dwayt un 

thes program al any ime n the fulue to add, Iemove. of O Dowbad Wihou Instaling 

Upgade pack age? ar necessary x 


E O Inetal hom Local Drecton 


Selup eye vertion 257323 


Copyight 2000:2007 
Ah 


图 4.7 Cygwin Setup 对 话 框 图 4.8 ”选择 “Install from Internet” 


在 图 4.8 所 示 的 对 话 框 中 ， 选 择 “Install from Internet” 复 选 框 ， 然 后 单 击 “下 一 步 ” 按 
钮 ， 进 入 如 图 4.9 所 示 的 对 话 框 。 

在 图 4.9 所 示 的 对 话 框 中 ,设置 Cygwin 的 安装 目录 ， 在 “Install For” 下 选择 “All Users” 
单 选 按 钮 ， 在 “Default Text File Type” 下 选择 “Unix/binary” 单 选 按钮 ， 然 后 单 击 “ 下 一 步 ” 
按钮 ， 进 入 如 图 4.10 所 示 对 话 框 。 


Cyewin Setup - Choose Installati... 革 辣 | 圆 Cygwin Setup - Select Local Pack... 


Select Root Install Directory Select Local Package Directory 


Wectog whete i A en Selec! a drectory where you wnt Setup to store the instaliaton fles& 
ee dowrloads The drectory wil be created Ft does not aheady exist 


Loca Packace Diectory 
Iratal For Dela Ted Fie Type 
© AN Users RECOMMENDED) ©D Unie / binay RECOMMENDEDI EE 
Cggwn wl be avalable to al users of No ine hanslation dore: al fles opened 
thE ssotem. NOTE: This is eqned brary made Fles on dk wil have 
you wah to run savices ke sshd elc Fne endngs. 
OyutMe es 
Cygwn wal ong be avalableto the Line endngs vl be tanslated hom wri 
Surent Use Cink) select this you lack (LF) to DOS (CRAF] on we and vice 
Adun prvieges of you have specfic versa on read 
read Readmoe bo fle modes 


EF 


图 4.9 设置 Cygwin 的 安装 目录 图 4.10 ”设置 安装 包 存 放 目录 
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在 图 4.10 所 示 的 对 话 框 中 ,设置 Cygwin 安装 包 存放 目录 ， 接 着 单 击 “ 下 一 步 ” 按 钮 ， 就 
会 出 现 图 4.11 所 示 的 对 话 框 。 

在 图 4.11 所 示 的 对 话 框 中 ， 单 击 选择 “Direct Connection” 单 选 按钮 ， 然 后 单 击 “ 下 一 
步 ” 按钮 ， 即 出 现 如 图 4.12 所 示 对 话 框 。 


Cygwin Setup - Select Connection... 奈 右 | 网 


[人 


Choose A Download Site 
Chocse a she from this 网 .ol add your own shies to the let 


Select Your Internet Connection 
‘Sevp reeds lo Krew how you wort Nio comect 0 tne termet. Choose 
the appropiite settngs 


Oe ore 
OUselE5 Setings 
OUse HTTP/FTP Prow: 


Prow Host 


Pot 


怒 狠 列 玫 力 认 大 ， 在 欠 作 


pppbirwm ygwin enous 并 埃 “Ady" 


图 4.11 选择 “Direct Connection” 图 4.12 ”设置 路 径 
于 图 4.12 所 示 的 对 话 框 中 ,， 单 击 “ 下 一 步 ”按钮 ， 将 进入 如 图 4.13 所 示 的 对 话 框 。 
在 图 4.13 所 示 的 对 话 框 过 程 中 ， 可 能 会 弹出 如 图 4.14 所 示 的 “Setup Alert” 提 示 框 ， 直 接 
单 击 “ 确 定 ”按钮 即 可 。 注 意 : 1.7.1 之 前 的 版 本 ， 不 一 定 会 弹出 这 个 对 话 框 。 


Cygwin Setup 


Progress 
This page displays the progess of the download or instalalion. 


Dowrioadng ， 
soluptz2 ig hom pig/ egowin on/pub/ Setup Alert 
ta This is the first tine you' ve installed Sean 


pe 0] 机 advised that this is a major release, 
If already, please check out 


you have not done so 
the docunentation at http://cygwin. co to see how 
the upgrade could potentially affect any existing 
Cyevin installation. 


If this is the first time you ve installed Cygvin on 
this systen then you can ignore this nessage, 


CC ww 
图 4.13 ”在 Windows 上 安装 和 配置 Hadoop 图 4.14 ”Setup Alert 框 


进入 “Select Packages” 对 话 框 后 ， 必须 保证 “Net Category” 下 的 “OpenSSL” 被 安装 ， 
如 图 4.15 所 示 。 

如 果 还 打算 在 eclipse 上 编译 Hadoop， 则 还 必须 安装 “Base Category” 下 的 “sed”， 如 图 
4.16 所 示 。 

另外 ， 还 建议 将 “Editors Category” 下 的 “vim” 也 安装 进来 ， 以 方便 在 Cygwin 上 直接 修 
改 配 置 文件 。 “Devel Category” 下 的 “subversion” 建 议 安装 ， 如 图 4.17 所 示 。 

当 实现 上 述 操作 后 ， 单 击 “Select Packages” 对 话 框 中 “下 一 步 ” 按 钮 ， 即 可 进入 Cygwin 
安装 包 下 载 过 程 ， 如 图 4.18 所 示 。 
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Cygwin Setup - Select Packages 


Okeep Opev Om OFw 
Size _P 
: oan Sim on to & systen 
Blsel 园 口 19k nan: Non, wpropos and whatis 
rl 加 Om rebase: Wtilities for rebasing DLLs 
BI run Start console progrms vith hid 


EE ET The 0penSSL 0.9.7 runtim 
Sk ping: A basic network tool to test 也 
211k plonet: Flexible RE, RSS and Mon £.¥ 

» 


Tok tar: A GNU file archivine progran 
Zak terninfo: Jatabase for ncurses-style 
SAlk treode: Ths tine zone package 时 


CR 性 


图 4.16 安装 “sed” 


Cygwin Setup - Select Packages 


Select Packages Progress 机 E 
Select packages to install This page dsplags the progess cd the downibad orinstalaton 


Dowloadng ， 
人 gwn1711tarbz2fon hitp://ww cyowin en/pub/ /reles. ， 
1,421k splint: Check C prograns for security 16%¥ (286k/1707k) 5251 kB/s 


Package 
To 
a Dk 
841k subversion perl, A version control 习 革 

入 


图 4.17 ”建议 安装 “subversion” 图 4.18 下载 安装 包 
当 安装 包 下载 完 毕 后 ， 将 会 自动 进入 到 如 图 4.19 所 示 的 对 话 框 。 
在 图 4.19 所 示 的 对 话 框 中 ， 选 中 “Create icon on Desktop” 复 选 框 ， 以 方便 直接 从 桌面 上 
启动 Cygwin， 然 后 单 击 “完成 ”按钮 。 至 此 ，Cygwin 已 经 安装 完 ， 安 装 目录 下 的 内 容 如 图 4.20 
所 示 。 


Cygwin Setup - Installation Status - 


Create Icons 
ri fa corvenienl access to Ihe 
Ce @ 硬 -日 唐国 甩 扫 胞 Xf 国 - 
地 址 (0) 加 FE:\cyevin 
大 小 | 
ln 文件 和 文件 夫 任 务 
adicon to Stan Meru 局 外 一 个 新 文件 天 
全 这 人 六 人 天 而 
芯 基本 此 文件 天 
1 TB 
T HB 


图 4.19 在 桌面 上 创建 Cygwin 图 标 图 4.20 ”Cygwin 安 装 好 后 的 目录 
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3. 配置 环境 变量 系统 属性 [? [x 
环境 i 量 是 操作 系统 中 一 个 具有 特定 名 字 常规 “计算 机 名 硬件 “| 高 绒 ”| 系统 还 原 | 自动 更 新 远程 


的 对 象 ， 它 包含 了 一 个 或 者 多 个 应 用 程序 将 使 用 
到 的 用 户 通 过 设置 环境 变量 来 更 好 地 运行 
进程 

需要 配置 的 环境 变量 包括 PATH 和 JAVA_ 
HOME。JAVA_HOME 指向 JDK 的 安装 目录 ; JDK 


的 bin 目 录 、Cygwin 的 bin 目 录 以 及 Cygwin 的 usr\bin Sm re 
目录 都 必须 添加 到 PATH 环 境 变 量 中 ， 如 图 4.21 7 


所 示 
4. 安装 sshd 服 务 


sshd 是 Cygwin OpenSSH 充 


编辑 系统 变量 


Ca Can] 


这 ， 用 于 支持 安 
全 的 SSH 链 接 访问 。 双 击 桌 面 上 的 Cygwin 图 标 ， 
启动 Cygwin， 执 行 ssh-host-config 命 令 ， 如 图 4.22 所 示 


在 执行 ssh-host-config 时 ， 当 要 求 输入 yes/no 时 ， 选 择 输入 no， 如 图 4.23 所 示 


图 4.21 在 Windows 上 安装 和 配置 Hadoop 


7 


图 4.22 ”执行 ssh-host-config 命 令 图 4.23 ”在 Windows 上 安装 和 配置 Hadoop 


若是 Cygwin 1.7 以 前 的 版 本 ， 则 ssh-host-config 显 示 界 面 会 如 图 4.24 所 示 


习 4.24 ”Cygwin 1.7 以 前 版 本 


当 看 到 出 现 “Have fun” 时 ， 一 般 表 示 sshd 服 务 安装 成 功 了 ， 


要 启动 sshd 服 务 
5. 启动 sshd 服 务 


在 桌面 上 的 “我 的 电脑 ” 
理 界面 ， 如 图 4.25 所 示 


图 标 上 单 


在 图 4.25 所 示 的 窗口 中 ， 右 击 “CYGWIN sshd” 项 ， 


务 


启动 成 功 后 ， 如 图 4.26 所 示 


SEEIIOEIOREEORECTID 
个 图 园区 加 国 困 
EE 6 柱 二 ， 关 太 后 动 兴 玫 “主轴 
外 基于 过 噶 COI Systen hpplication 管 手动 可 | 
ast 上 roveer 约 .…， 已 记 动 和 动 村 
旦 风 本 了 用户 和 
由 出 性 认 目 志和 区 失 er 
| S 
齐 国 mgab 丰 全 | Bu 二 村 
| Distribated ， 
3 | pas Eliont 已 B 动 自动 网 
己 且 服务 和 应 用 程序 。 | 彻 Error Report|。 记 加 任 名 已 局 动 自动 本 | 
下 各 人 IE wo FAESE) » ee ey 
wr 控件 | elble al 于 动 在 
市 畏 开 3 月 徊 | gopest ao Sd 村 人 逢 动 。 抽 台 
| 民 性 (R) | 
< 到 NTRRREZ ww 


ET 
图 4.25 ”Windows 的 计算 机 管理 界面 
当 CYGWIN sshd 的 状 
6. 配置 ssh 登 录 


执行 ssh-keygen 命 令 生 月 


为 “已 启动 ” 


次 按 下 回 车 键 


恒 4.27 ”生成 密 钥 文件 


cd ~/ sh/ 


cp id rsa.pub authorized keys 


图 文件 (D ”操作 (4) 下 看 四 


+ 各 回信 
国 计 算 机 多 理 (本地 ) 
= 衣 蕴 统 I 具 


后 ， 接 下 来 就 是 配置 ssh 


钥 文件 ， 如 图 4.27 所 示 
在 图 4.27 所 示 对 话 框 中 ， 需 要 输入 时 ， 直 接 按 回 车 键 即 可 


图 
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如 图 4.23 所 示 。 接 下 来 ， 需 


“管理 ”菜单 ， 进 入 Windows 计算 机 管 


“启动 ”， 启 动 CYGWIN sshd 服 


从 口吃。 帮助) 
[Br 
名 称 
史 CON Systen Application 


区 pHrP client 
BDistributed Link Tra 
Distributed Transact,.. 
鸣 DNS Client 

欧 Error Reporting Service 
驳 Event Log 

四 Extensibls Authentic... 
Fast User Swatching ... 
‘ 


扩展 人 标准 


图 4.26 ”启动 “CYGWIN sshd” 


如 果 不 出 错 ， 应 当 是 需要 


接 下 来 将 生成 auth' )Tized_keys 文 件 ， 按 图 4.28 所 示 操 作 即 可 


4.28 ”生成 authorized_keys 文 件 


只 需 执 行 以 下 两 步 操 作 ， 即 可 生成 authorized_keys 文 件 
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完成 上 述 操作 后 ， 执 行 exit 命 令 先 退出 Cygwin 窗 口 。 如 果 不 执行 这 一 步 操作 ， 则 下 面 的 操 
作 可 能 会 遇 到 错误 

接 下 来 ， 重新 运行 Cy gwin, 执行 ssh localhost 命 令 。 在 第 一 次 执行 ssh localhost 时 ， 会 有 如 
图 4.29 所 示 的 提示 ， 输 入 yes， 然 后 按 回 车 键 即 可 


图 4.29 执行 ssh localhost 命 令 


在 这 步 操作 中 ， 如 果 是 Windows 域 用 户 ， 则 可 能 会 遇 到 问题 ， 错 误 信 息 如 图 4.30 所 示 


Chandle 


图 4.30 ”错误 提示 信息 


该 错误 暂时 没有 解决 办 法 ， 可 关注 Hadoop 技 术 论坛 中 的 贴 : http://bbs.hadoopor.com/ 
跟 进 问题 的 解决 情况 。 如 果 操 作成 功 ， 执 


thread-348-1-1.html ( Cygwin 1.7.1 版 本 ssh 问 题 ) 
行 who 命 令 时 ， 就 会 看 到 如 图 4.31 所 示 的 信息 


2818-81 


图 4.31 执行 who 命 令 


至 此 ， 配 置 ssh 登 录 成 功 ， 接 下 来 就 可 以 进行 Hadoop 的 安装 

7. 下 载 Hadoop 安 装 包 

Hadoop 安装 包 下 载 地 址 是 http://labs.xiaonei.com/apache-mirror/hadoop/core/ha doop-0. 20.1/ 
hadoop-0.20.1.tar.gz， 下 载 安 装 包 

8. 安装 Hadoop 

将 下 载 Hadoop 安 装 包 hadoop-0.20.1.tar.gz 解 压 到 D:\hadoop\run 目 录 ( 可 以 修改 成 其 他 目 
录 ) 下 ， 如 图 4.32 所 示 


修 改 Hadoop 的 配置 文件 。 配 置 文件 位 于 conf 子 目 录 下 ， 包括 hadoop-env .sh、 core—site. 
xml 、hdfs-site.xml 和 mapred-site.xml 四 个 文件 。 在 Cygwin 环 境 下 ，masters 和 slaves 两 个 文件 不 需 
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要 修改 。 


ECE 


@@AFB - 目 -请 月 看 表 本 文 Hf 天 国 - 国 


大 十 类型 
王 件 天 
文件 天 
文件 到 
comb 文件 亚 
立 件 殉 
文件 到 
文件 到 
文件 
brecordo 文件 天 
logs 文件 天 
文件 夫 
Bwebarrs 文件 亚 
72KB XML 文档 
下 cnavses 3 了 阳 文本 文档 
国 nedoooozo.l-ame 7K8 jafie 
国 nadoop-o zo lcore 2620xB jarfie 
国 hadoop-0.20.1-0vamples 140xB jorfie 
x 国 hadoop 0.20.1tot LS13re jarfie 
加 nodeopozo.ltoob 中 jafie 
全 Rs > 和 >BnnR， > ee 
目 ucewse 14xB 文本 文档 
目 Nonce 1 
目 REaowE 2IB 文本 文档 


图 4.32 ”解压 安装 包 
(1 ) 修改 hadoop-env.sh 
将 JAVA_HOME 修改 成 JDK 的 安装 目录 即 可 。 注 意 ，JDK 必 须 是 1.6 或 以 上 版 本 。 
(2 ) 修改 core-site.xml 
为 简化 core-site.xml 配 置 ， 将 D:\hadoop\run\sre\core 目 录 下 的 core-default.xml 文 件 复制 到 


D:\hadoop\run\conf 目 录 下 ， 并 将 core-default.xml 文 件 名 改 成 core-site.xml。 修 改 fs.default.name 的 
值 ， 如 图 4.33 所 示 。 


图 4.33 ”修改 fs.default.name 的 值 


图 4.33 中 的 端口 号 为 8888， 可 以 改 成 其 他 未 被 占用 的 端口 。 
(3 ) 修改 hdfs-site.xml 
为 简化 hdfs-site.xml 配 置 ， 将 D:\hadoop\run\src\hdfs 目录 下 的 hdfs-default.xml 文 件 复制 到 D:\ 
hadoopWun\conf 目 录 下 ， 并 将 hdfs-default.xml 文 件 名 改 成 hdfs-site.xml。 不 需要 再 做 其 他 修改 。 
(4 ) 修改 mapred-site.xml 
为 简化 mapred-site.xml 配置 ， 将 D:\hadoop\run\src\mapred 目录 下 的 mapred-default.xml 文 件 
复制 到 D:\hadoop\run\conf 目 录 下 ， 并 将 mapred-default.xml 文 件 名 改 成 mapred-site.xml。 
图 4.34 中 的 端口 号 为 9999， 可 以 改 成 其 他 未 被 占用 的 端口 。 至 此 ， 表 示 Hadoop 安 装 完 
毕 ， 可 以 开始 体验 Hadoop 了 o 
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<property> 
<name >-mapred.job.tracker</ name> 
<value localhost: 9999 /value> 
<description>The host and port that the MapReduce j 
at. IE "local", then jobs are run in-process as a s: 
and reduce task. 
</description> 

</property) 


图 4.34 ”修改 端口 号 


9. 启动 Hadoop 
在 Cygwin 中 ， 进 入 Hadoop 的 bin 目 录 ， 运 行 /start-all.sh 来 启 动 Hadoop 在 启动 成 功 之 后 ， 
可 以 执 和 J/hadoop fs -ls/ 命 令 ， 查看 Hadoop 的 根 目录 ， 如 图 4.35 所 示 


8 2889-12-18 19:28 


图 4.35 ”启动 Hadoop 后 的 界面 


4.3.2 在 Linux 上 安装 与 配置 Hadoop 

在 Linux 操 作 系 统 上 安装 与 配置 Hadoop 的 步骤 与 在 Windows 下 类 似 。 以 下 操作 均 在 虚拟 机 
VMWare 10.0 上 安装 的 Ubuntu 12.04 ( Linux 的 一 个 版 本 ) 环境 下 实现 。 首 先 应 该 在 Ubuntu 下 创 
建 Hadoop 用 户 

先 在 Ubuntu 的 控制 台 上 查看 系统 版 本 以 及 操作 系统 位 数 ， 如 图 4.36 所 示 


装 


generic-pae #87-Ubuntu 5 


图 4.36 ”Ubuntu 的 控制 台 

如 果 显 示 X86_64 说 明 是 64 位 内 核 ， 显 示 i386 、i686 说 明 是 32 位 内 核 

1. 安装 JDK 

实验 使 用 的 JDK 文 件 为 jdk-7u45-linux-i586.bin ， 下 载 完 毕 后 放 在 Home 目 录 下 
(1) 进入 存放 JDK 文 件 的 目录 并 解压 

执行 dk-7u45-linux-i586.gz Star -zxvf*.gz 命 令 。 
(2) 创 建 /usr/lib/jjvm 文件 

执行 sudo mkdir /usrlib/jvrm 命 令 ， 之 后 可 看 到 如 图 4.37 所 示 的 界面 。 


第 4 章 Hadoop 和 MapReduce | 121 


pdminator@adminator-virtual-machine:/ sr/lib 
al-machine /Libs sudo mkdir jvm 


复制 解压 后 的 jdk1.7.0_45 到 /usr/lib/jvm 目 录 。 
执行 sudo cp -rjdk1.7.0_45 /usr/libjjvm 命 令 后 可 看 到 如 图 4.38 所 示 界 面 。 


rtuaL-machin 
rtual-machine 


Jusr/Uib/jvn 


图 4.38 执行 sudo cp-r jdk 1.7.0-45/usr/lib/jvm 命 令 
(3 ) 赋予 文件 读 、 写 和 执行 的 权限 
执行 sudo chmod 777 /usr/lib/jvm 命 令 
(4 ) 修改 环境 变量 ( 对 计算 机 的 所 有 用 户 生 效 ) 
执行 sudo gedit /etc/profile 命 令 
(5 ) 使 用 source 更 新 /etc/profile 
执行 source /etc/profile 命 令 


使 用 java - version 命 令 查看 Java 版 本 号 ， 如 图 4.39 所 示 


untime Environment (build 1.7. 
TM) CLient VM (build 24.45-b 


图 4.39 ”使 用 java-version 命 令 查看 Java 版 本 号 


2. 创建 Hadoop 用 户 组 和 用 户 
创建 Hadoop 用 户 组 
执行 sudo addgroup hadoop 命 令 
(2 ) 创建 Hadoop 用 户 并 设置 密码 
执行 sudo adduser - ingroup hadoop hadoop 命 令 
(3 ) 赋予 用 户 权限 
执行 sudo gedit /etc/sudoers 命 令 。 打 开 /etc/sudoers 文 件 ， 给 Hadoop 用 户 赋 予 与 root 用 户 同 样 
的 权限 。 在 root ALL=(ALL:ALL) ALL 下 添加 hadoop ALL=(ALL:ALD) ALL 语 句 ， 如 图 4.40 所 示 。 


User privilege specification 
root ALL=(ALL:ALL) ALL 
adoop ALL=(ALL:ALL) ALL 


图 4.40 ”赋予 用 户 权限 
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3. 切换 Hadoop 用 户 ， 安 装 并 配置 ssh 


使 用 Hadoop 用 户 配 置 无 密码 访问 本 机 。 
(1 ) 安装 ssh 
SSH 是 Secure Shell 的 缩写 ， 是 建立 在 应 用 层 和 传输 层 上 的 安全 协议 。 因 为 Hadoop 运 行 过 
程 中 需要 管理 远程 的 Hadoop 守 护 进程 ， 如 果 在 安装 Linux 虚 拟 机 时 没有 安装 ssh， 可 以 使 用 下 
面 的 命令 来 安装 。 
sudo apt—get install openssh—server 
在 安装 过 程 中 可 能 会 遇 到 一 些 问题 ， 或 需要 安装 其 他 的 程序 ， 这 时 可 到 网 上 寻找 帮助 或 
下 载 相应 的 安装 程序 。 比 如 需要 安装 Libek-connector0_0.4.5-3ubuntu0.1_i386.dep， 则 可 以 先 
下 载 它 然后 安装 就 行 了 。 
(2 ) 配置 ssh 免 密码 登录 
ssh 生 成 密 钥 方式 有 RSA ( 专用 密 钥 ) 和 DSA ( 公用 密 钥 ) 两 种 ， 默 认 情 况 下 采用 RSA 方 式 。 
@ 生成 密 钥 对 ， 执 行 如 下 命令 。 
ssh-keygen - rsa 
在 询问 保存 路 径 时 ， 直 接 按 回 车 键 采 用 默认 路 径 。 提 示 要 为 生成 的 秘 钥 输 入 passphrase 
时 ， 直 接 按 回 车 键 将 其 设 定 为 空 密码 。 连 续 按 三 次 回 车 键 ， 之 后 会 在 ~/.ssh/ 目 录 下 生成 两 个 文 
件 : id_rsa ( 私 用 密 钥 ) 和 id_rsa.pub ( 公用 密 钥 ) ， 这 两 个 文件 是 成 对 出 现 的 ， 可 用 ls 查看 。 
@ 进入 ~/.ssh/ 目 录 下 ， 将 id_rsa.pub 追 加 到 authorized_keys 授 权 文件 中 。 开 始 是 没有 
authorizaed_keys 文 件 的 。 
ESsai 
Ls 
@@) 将 id_rsa.pub 追 加 到 authorized_keys 授 权 文件 中 ， 命 令 如 下 。 
cat id rsa.pub >> authorized keys 
或 
$cp id rsa.pub authorized keys 
完成 之 后 就 可 以 无 密码 登录 本 机 了 。 
@ 登录 localhost， 命 令 如 下 。 
ssh localhost 
输入 yes， 如 sshd 没 有 启动 ， 则 会 显示 22 号 端口 打 不 开 ， 此 时 找 出 错误 ， 重 新 配置 即 可 。 
当 进 行 伪 分 布 模式 的 配置 时 ， 配 置 完成 之 后 要 执行 exit 退 出 命令 ， 因 为 此 时 控制 的 是 远程 的 机 
器 ， 需 要 执行 退出 命令 才能 重新 控制 本 机 。 
4. Hadoop 的 安装 与 部 署 


将 下 载 的 Hadoop-2.2.0 软 件 下 载 到 本 机 ， 并 解压 到 home 目 录 下 。 
(1 ) 命令 行 解 压 
Linux 解 压 tar 的 命令 如 下 。 


Star ~ZxvE *.tAarigz 
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» 


参数 含义 如 下 。 
一 c: 打包 

: 查看 tar 目 录 里 的 内 容 
: 用 bzip2 压 缩 
: 保留 文件 原 属性 
: 使 用 绝对 属性 
一 N: 压缩 指定 日 期 (yyy/mm/dd ) 以 后 用 的 文件 
: 解 开 压缩 文件 
: 用 gzip 压 缩 
: 压缩 过 程 同 时 显示 文件 列表 
-他 文件 名 。 该 参数 必须 是 最 后 一 个 参数 ， 后 面 接 文件 名 

改名 操作 ， 步 又 如 下 

执行 sudo mv hadoop-2.2.0 hadoop 命 令 

将 Hadoop 目 录 的 属 主 用 户 设 为 hadoop。 

执行 sudo chown - R hadoop:hadoop hadoop 命 令 

Hadoop 有 三 种 运行 模式 : 单机 模式 、 单 机 伪 分 布 模式 式 与 完全 分 布 模式 。 虽 然 第 一 、 二 
种 运行 模式 无 法 充分 展现 云 计 算 的 优势 ， 也 没有 实际 的 应 用 意义 ， 但 是 它们 在 程序 的 测试 与 
调试 过 程 中 还 是 发 挥 作 用 的 

(2 ) 单机 配置 方式 

单机 模式 不 用 配置 ， 选 择 这 种 方式 ，Hadoop 可 以 作为 一 个 单独 的 Java 进 程 ， 常 被 用 于 调 

(3 ) 单机 伪 分 布 式 模式 配置 方式 

这 种 模式 可 以 被 当 作 是 只 有 一 个 节点 的 集群 ， 这 个 节点 既 充 当 Master， 也 充当 Slave; 既 
可 以 看 作 NameNode， 也 可 以 看 作 DataNode; 既 能 作为 JobTracker， 也 能 作为 TaskTracker。 

在 这 种 模式 下 修改 4 个 配置 文件 即 可 。 这 四 个 配置 文件 均 位 于 /etc/hadoop 目 录 下 。 

GD 配置 hadoop-env.sh 

设置 JAVA_HOME 变 量 为 : 

export JAVA HOME=/usr/lib/jvm/jdk1.7.0 45 

为 了 防止 出 错 ，AVA_HOME 变 量 的 查看 可 通过 下 面 的 命令 实现 。 执 行 命令 后 界面 如 图 

4.41 所 示 。 
echo $JAVA HOME 


、 


du 


eeeeee eg@ e@ 
| 由 让 | 
可 NN 昌 中 


图 4.41 在 Linux 上 安装 与 配置 Hadoop 


@ 配置 core-site.xml 
在 configuration 中 添加 如 下 语句 。 
<property> 
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<name>hadoop.tmp.dir</name> 
<value>/home/hadoop/hadoop-2.2.0/hadoop-datastore/tmp</value> 
<description>A base for other temporarydirectories.</description> 
</property> 
<property> 
<name>fs.default .name</name> 
<value>hdfs://localhost:8010</value> 
<description>The name of the default file system. A URI whose 
scheme and authority determine the FileSystem implementation. The 
uri's scheme determines the config property (fs.SCHEME.impl) naming 
the FileSystem implementation class. The uri's authority is used to 
determine the host, port, etc. for a filesystem.</description> 
</property> 
@ 配置 hdfs-site.xml 
在 configuration 添 加 如 下 语句 。 
<property> 
<name>dfs.replication</name> 
<value>1</value> 
<description>Default block replication. 
The actual number of replications can be specified when the file iscreated. 
The default is used if replication is not specified in create time. 
</description> 
</property> 
@ 配置 mapred-site.xml 
对 于 hadoop2.0 以 前 的 版 本 ， 配 置 mapred-site.xml 文 件 ; 对 于 hadoop2.0 版 本 ， 配 置 mapred- 
site.xml.template 文 件 。 
在 configuration 之 间 添 加 如 下 语句 。 
<property> 
<name>mapred.job.tracker</name> 
<value>localhost:54311</value> 
<description>The host and port that the MapReduce job tracker runs 
at. If "local", thenjobs are run in-process as a single map 
and reduce task. 
</description> 
</property> 
<property> 


<name>mapred.map.tasks</name> 
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<value>10</value> 
<description>As a rule of thumb, use 10x the number of slaves(i.e., number 
of tasktrackers). 
</description> 
</property> 
<property> 
<name>mapred. reduce.tasks</name> 
<value>2</value> 
<description>As a rule of thumb, use 2x the number of slaveprocessors (i.e., 
number of tasktrackers). 
</description> 
</property> 
回 格 式 化 NameNode 
启动 Hadoop 前 ， 需 要 先 格式 化 Hadoop 的 文件 系统 HDFS， 执 行 如 下 命令 
bin/hdfs -format 
@@ 启 动 Hadoop 
如 果 格 式 化 成 功 ， 则 可 以 启动 Hadoop 守 护 进程 : 输入 命令 
bin/start-dfs .sh 
或 
bin/start-yarn.sh 
启动 进程 
相应 地 ， 停 止 Hadoop 守 护 进 程 的 命令 是 
bin/stop-dfs.sh 
和 
bin/stop--yarn.sh 


CO 验证 测试 

验证 需要 在 启动 模式 下 进行 

首先 输入 jps， 可 以 查看 端口 号 ， 如 图 4.42 所 示 
hadoop@adminator -virtual-machine:~/hadoop-2.2. 


Jps 
6 NodeManager 


ResourceManager 
DataNode 
6 SecondaryNameNode 
2 NameNode 


图 4.42 ”查看 端口 号 

然后 打开 浏览 器 ， 输 入 下 列 网 址 。 如 果 能 够 正常 浏览 ， 说 明 安装 成 功 。 
http://localhost:8088 

http://localhost:50070, 
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第 1 个 网 址 可 链接 到 Hadoop 资 源 管理 器 ， 第 2 个 网 址 可 链接 到 NameNode 的 Web 页 面 ， 对 
HDFS 进 行 检 测 。 在 Hadoop 上 查看 端口 情况 ， 如 图 4.43~ 图 4.45 所 示 。 


adop Nameode oc 


[EECEZXTTETT 


NameNode 'localhost:9000' (active) 


TDee 10 114025 CST2013 
.2.0, 1529768 

2013 10-.07706:282 by horionmu from branch-2.2.0 
Cluster ID: | Ci ed86sa35.4c51-4395b799.0d88785bfacdl 
Bock Pool ID: | BP.1488634366.218 28.144.41-1386577945458 


Browse me flesystem 
NemeNode Logs 


图 4.43 ”端口 情况 


ER [| 
文 作 (F) 怖 得 (E) 坦 看 (V) 提 索 (Sj 练 入 IT) 帮助 (H) 


DE OEYIGE SIZE/OFF Kom 
IPv6 22406 

TPv6 46526 
IPv6 47412 


r'49145 (ESTABLISHED)| | 
1stener (ESTABLISHED)[] 


图 4.44 在 Linux 上 安装 与 配置 


UserBlocathost- BE 
文 作 (F) 坊 汪 | 下 二 看 (V】 盾 索 (5) 全 给 大 号 H) 
vsertlocatrost I$ netsrat nep | (grep 900% 


LISTEN 2977/jave 
.168.162.13:9000 ESTABLISHED 2325/]ava 
FFFF:192°168.162.13:3090 168-162.13:49178 ESTABLISHED 2077/java 
:177:192.168.162.13:49176 
Tfff:192.168.162.13:49177 :2ffff:192.168. - 
ffff:192.168 -152213349174 :2ffff:192.168-162.13:9888 TINE-WAIT 


usertlocalhost ~ 


图 4.45 ”在 Linux 上 安装 与 配置 


上 4.4 Hadoop 应 用 案例 


本 节 以 Lastfm 和 Facebook 为 例 说 明 Hadoop 在 这 些 软件 上 的 应 用 


4.4.1 Last: fm 


Last* fm 是 世界 上 最 大 的 社交 音乐 平台 。 创 建 于 2002 年 ， 提 供 网 络 电台 和 网 络 音乐 服 
务 。Last' fm 音乐 库 里 有 约 超过 1000 万 个 歌手 和 超过 1 亿 首 歌 
曲 。 每 个 月 ， 全 世界 250 个 国家 ， 超 过 2000 万 人 在 这 里 寻找 、 
收听 、 谈 论 自己 喜欢 的 音乐 。 这 些 数字 不 断 增 长 ， 产 生 大 
量 数据 。2006 年 初 ，Last' fm 开始 使 用 Hadoop， 几 个 月 后 投 
入 实际 应 用 。Hadoop 是 Last' fm 基础 平台 的 关键 组 件 ， 有 2 个 
Hadoop 集 样 、50 台 计算 机 、300 个 内 核 、100TB 的 硬盘 空间 。 在 |Cstfrn 
集群 上 ， 运 行 数 百 种 日 常 作业 ,包括 日 志文 件 分 析 、A/B 测 试 


评测 、 即 时 处 理 和 图 表 生 成 。 图 4.46 所 示 为 Last* fm 的 图 标 。 


图 4.46 ”Llast.fm 图 标 
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Last* fm 创建 于 2002 年 ， 它 是 一 个 提供 网 络 电 台 和 网 络 音乐 服务 的 社交 网 络 。 每 个 月 有 
2500 万 人 使 用 Last* ftm， 会 产生 大 量 数据 。 

2006 年 初 ，Last* fm 开始 使 用 Hadoop， 几 个 月 后 投入 实际 应 用 。Hadoop 是 Last* fm 基础 
平台 的 关键 组 件 ， 有 2 个 Hadoop 集 群 ，50 台 计算 机 ，300 个 内 核 ，100TB 的 硬盘 空间 。 在 集群 
上 ， 运行 数 百 种 日 党 作业， 包括 日 志文 件 分 析 ，A/B 测 试 评测 ， 即 时 处 理 和 图 表 生 成 。 

1. 图 表 生 成 

图 表 生 成 是 Hadoop 在 Last* fm 的 第 一 个 应 用 ， 如 图 4.47 所 示 。 


The Killers-Human 


Kings of Leon-Sex on Fire 


to Pretend 


图 4.47 ”Last* fm 音乐 排行 统计 图 表 


2. 数据 从 哪里 来 

Last* fm 有 两 种 收听 数据 : 用 户 播放 自己 的 音乐 ， 如 使 用 PC 或 者 其 他 设备 来 播放 mp3， 
这 种 信息 通过 Last' fm 的 客户 端 或 者 第 三 方 应 用 发 送 到 Last* fm， 这 一 类 叫 scrobble 收 藏 数 
据 ; 用 户 收 听 Last* fm 网 络 电台 的 节目 ， 以 及 在 听 节 目 时 候 的 喜好 ， 跳 过 ， 禁 止 等 操作 信 
息 ， 这 一 类 叫 radiolisten 电 台 收 听 数 据 。 

3. 数据 存储 

收听 数据 被 发 送 到 Last' fm， 经 过 验证 和 转换 ， 形 成 一 系列 由 空格 分 隔 的 文本 文件 ， 包 
含 用 户 ID (userid ) ， 音 乐 ID (trackid ) ， 这 首 音 乐 被 收藏 的 次 数 ( scrobble ) ， 这 首 音 乐 在 电 
台中 收听 的 次 数 ( radio ) ， 被 跳 过 的 次 数 (skip ) 。 真 实数 据 达到 GB 级 别 ， 有 更 多 属性 字段 。 

4. 数据 处 理 

UniqueListeners 作 业 : 统计 收听 某 一 首 歌 的 不 同 用户 数 。 也 就 是 说 ， 有 多 少 个 用 户 听 过 某 
个 歌 。 如 果 用 户 重复 收听 ， 只 算 一 次 。 
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Sum 作 业 : 每 首 歌 的 收听 总 数 、 收 藏 总 数 、 电 台 收 听 总 数 、 被 跳 过 的 总 数 。 

合作 作业 : 每 首 歌 被 多 少 不 同 用 户 收 听 总 数 、 收 听 总 数 、 收 藏 总 数 、 电 台 收 听 总 数 、 被 
跳 过 的 总 数 。 

这 些 数据 会 被 用 来 制作 周 排行 榜 等 ， 然 后 在 Lastfm 主 站 上 显示 出 来 。 

5. 总 结 


Hadoop 已 经 成 为 Last* fm 基础 框架 的 一 个 重要 部 件 ， 它 用 于 产生 和 处 理 各 种 各 样 的 数据 
集 ， 如 网 页 日 志 信 息 和 用 户 收听 数据 。 为 了 让 读者 能 够 掌握 主要 的 概念 ， 这 里 讲述 的 例子 已 
经 被 大 大 地 简化 ， 而 在 实际 应 用 中 ， 输 入 的 数据 具有 更 复杂 的 结构 ， 并 且 数 据 处 理 的 代码 也 
更 加 繁琐 。 虽然 Hadoop 本 身 已 经 足够 成 熟 ， 可 以 支持 实际 应 用 ,但 它 仍 在 被 开发 人 员 积 极地 
开发 ， 并且 Hadoop 社 区 每 周 都 会 为 它 增加 新 的 特性 及 提升 它 的 性 能 。Last* fm 很 高 兴 是 这 个 
社区 的 一 份子 ， 是 代码 和 新 想法 的 贡献 者 ， 同 时 也 是 对 大 量 开源 技术 进行 利用 的 终端 用 户 。 


4.4.2 Facebook 
图 4.48 所 示 为 Facebook 的 图 标 。 


facebook 


图 4.48 ”Facebook 图 标 


1. 背景 


Facebook 是 世界 著名 的 大 型 社交 网 站 ， 有 3 亿 以 上 的 用 户 活跃 在 此 网 站 上 ， 其 中 有 10% 左 
右 的 用 户 每 天 至 少 更 新 一 次 自己 的 状态 ;每 个 月 用 户 累计 上 传 超过 10 亿 张 图 片 和 一 千 万 个 视 
频 ; 每 周 累计 共享 10 亿 条 内 容 ， 其 中 包括 个 人 日 志 、 网 页 链接 、 热 点 新 闻 、 热 门 微 博 等 。 如 
此 巨大 的 数据 量 都 是 Facebook 需 要 存储 和 处 理 的 ， 而 且 每 天 还 要 新 增加 4TB 压 缩 后 的 数据 ， 
需要 扫描 高 达 135TB 的 数据 ， 在 集群 上 执行 Hive 任 务 超过 7500 次 ， 每 小 时 需要 进行 8 万 次 计 
算 …… 所 以 高 性 能 的 云 平台 对 Facebook 而 言 至 关 重 要 ， 而 Facebook 采 用 Hadoop 平 台 ， 主 要 负 
责 完 成 日 志 处 理 、 推 荐 系统 和 数据 仓库 等 各 方面 的 工作 。 


2. 数据 存储 现状 


Facebook 将 海量 数据 存储 在 数据 仓库 上 ， 这 个 数据 仓库 是 利用 Hadoop/Hive 搭 建 的 ， 拥 
有 4800 个 内 核 ，5.5PB 的 存储 量 ， 单 节点 存储 量 达 12TB， 其 两 层 网 络 拓扑 如 图 4.49 所 示 。 
Facebook 中 的 MapReduce 集 群 可 以 动态 变化 ， 它 基于 负载 情况 和 集群 节点 之 间 的 配置 信息 可 动 
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态 移动 。 

RE 加 
= ee 本 FE | = = 
ig | Ny] Bag) (Bs) | Bs) 。 panoae 

Node, Node| Node| Node| Node Node 二 

< > 1Gigabit 4Gigabit MapReduce 
图 4.49 ”集群 的 网 络 拓扑 图 
3. 数据 仓库 架构 


图 4.50 为 Facebook 的 数据 仓库 架构 ， 在 这 个 架构 中 ， 网 络 服务 器 和 内 部 服务 生成 日 志 数 
据 。 这 里 Facebook 使 用 开源 日 志 收集 系统 ， 它 可 以 将 数 以 百 计 的 日 志 数 据 集 存 储 在 NFS 服 务 器 
上 ， 且 大 部 分 日 志 数 据 会 复制 到 同一 个 中 心 的 HDFS 实 例 中 ， 而 HDFS 存 储 的 数据 都 会 放 到 利 
用 Hive 构 建 的 数据 仓库 中 。Hive 提 供 了 类 SQL 的 语言 来 与 MapReduce 结 合 ， 创 建 并 发 布 多 种 摘 
要 和 报告 ， 以 及 在 它们 的 基础 上 进行 历史 分 析 。Hive 上 基于 浏览 器 的 接口 允许 用 户 执行 Hive 
查询 。Oracle 和 MySQIL 数 据 库 用 来 发 布 摘要 ， 这 些 数据 容量 相对 较 小 ， 但 查询 频率 较 高 ， 并 
需要 实时 响应 。 

必 网 络 储存 


人 ea 一 一 史 人 和 服务 器 
Web 服 务 器 Scribe 中 间 层 Li 


Oracle RAC Hadoop Hive 数 据 仓库 MySQL 
图 4.50 ”Facebook 数 据 仓 库 架构 


4. AvatarNode 和 调度 策略 


一 些 旧 的 数据 需要 及 时 归档 ， 并 存储 在 较 便宜 的 存储 器 上 ， 如 图 4.51 所 示 。 下 面 介 绍 
Facebook 在 AvatarNode 和 调度 策略 方面 所 做 的 一 些 工 作 。AvatarNode 主 要 用 于 HDFS 的 恢复 和 启 
动 。 若 HDFS 崩 溃 ， 按 原 有 技术 恢复 首先 需要 花 10 ~ 15 分 钟 来 读 取 12GB 的 文件 镜像 并 写 回 ， 
还 要 用 20 ~ 30 分 钟 处 理 来 自 2000 个 DataNode 的 数据 块 报告 ， 最 后 用 40 ~ 60 分 钟 来 恢复 崩溃 的 
NameNode 和 部 署 软 件 。 表 4.2 说 明 了 BackupNode 和 AvatarNode 的 区 别 。AvatarNode 作 为 普通 的 
NameNode 启 动 ， 处 理 所 有 来 自 DataNode 的 消息 。AvatarDataNode 与 DataNode 相 似 ， 支 持 多 线 
程 和 针对 多 个 主 节点 的 多 队列 ， 但 无 法 区 分 原始 和 备份 。 人 工 恢 复 使 用 AvatarShell 命 令 行 工 
具 ，ArvatarShell 执 行 恢复 操作 并 更 新 ZooKeeper 的 zNode， 人 恢复 过 程 对 用 户 来 说 是 透明 的 。 分 布 


| 
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式 Avatar 文件 系统 实现 在 现 有 文件 系统 的 上 层 。 
Hadoop 数据 仓库 


I 


便宜 的 NAS 


> Hadoop 归档 集群 
> 

全 

Hive 查询 请 求 


图 4.51 数据 归档 
表 4.2 ”BackupNode 和 AvatarNode 的 区 别 


BackupNode ( 冷 备份 ) AvatarNode ( 热 备 份 ) 


Namespace 状 态 与 原始 的 同步 Namespace 状 态 与 原始 相 比 有 几 个 事务 的 延迟 
没有 数据 块 和 DataNode 信 息 拥有 全 部 的 数据 块 和 DataNode 信 息 
在 可 用 之 前 仍 需 20 ~ 30 分 钟 6500 万 个 文件 的 恢复 不 超过 一 分 钟 

基于 位 置 的 调度 策略 在 实际 应 用 中 存在 着 一 些 问 题 ， 如 需要 高 内 存 的 任务 可 能 会 被 分 配 
给 拥有 低 内 存 的 TaskTracker; CPU 资源 有 时 未 被 充分 利用 ; 为 不 同 硬件 的 TaskTracker 进 行 配 
置 也 比较 困难 等 。Facebook 采 用 基于 资源 的 调度 策略 ， 即 公平 享有 调度 方法 ， 实 时 监测 系统 
并 收集 CPU 和 内 存 的 使 用 情况 。 调 度 器 会 分 析 实时 的 内 存 消耗 情况 ， 然 后 在 任务 之 间 公 平分 
配 任 务 的 内 存 使 用 量 。 它 通过 读 取 /proc/ 目 录 解 析 进 程 树 ， 并 收集 进程 树 上 所 有 的 CPU 和 内 存 
的 使 用 信息 ， 然 后 通过 TaskCounters 在 心跳 (heartbeat ) 时 发 送信 息 。 


5. Hive 的 架构 


Facebook 的 数据 仓库 使 用 Hive。 这 里 HDFS 支 持 三 种 文件 格式 : 文本 文件 ( TextFile ) ， 
方便 其 他 应 用 程序 读 写 ; 顺序 文件 ( SequenceFile ) ， 只 有 Hadoop 能 够 读 取 并 支持 分 块 压 缩 ; 
RCFile， 使 用 顺序 文件 基于 块 的 存储 方式 ， 每 个 块 按 列 存储 ， 这 样 有 较 好 的 压缩 率 和 查询 性 
能 。Facebook 未 来 会 在 Hive 上 进行 改进 ， 以 使 Hive 支 持 索引 、 视 图 、 子 查询 等 新 功能 。 

6. 挑战 

现在 Facebook 使 用 Hadoop 遇 到 的 挑战 如 下 。 

@ 服务 质量 和 隔离 性 方面 : 较 大 的 任务 会 影响 集群 性 能 。 

@ 安全 性 方面 : 如 果 软 件 漏洞 导致 NameNode 事 务 日 志 崩 溃 该 如 何 处 理 。 

@ 数据 归档 方面 : 如 何 选择 归档 数据 ， 以 及 数据 如 何 归档 。 

@ 性 能 提升 方面 : 如 何 有 效 地 解决 瓶颈 等 。 


有 4.5” MapReduce 模 型 概述 


Hadoop 的 MapReduce 采 用 的 是 Master/Slave 架 构 ， 如 图 4.52 所 示 。 它 主要 由 这 样 几 个 组 件 
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组 成 : Client、JobTracker、TaskTracker 和 Task。 下 面 分 别 对 这 几 个 组 件 进行 介绍 。 


Client ”上 一 
Task 
Client ”一 Job Tracker Scheduler 
Client | 一 
Heartbeat Heartbeat Heartbeat 


TaskTracker TaskTracker TaskTracker 


Map Task| 


Reduee Task 


图 4.52 ”MapReduce 结 构图 


1. Client 


Client 是 用 户 编 写 的 MapReduce 程 序 与 JobTracker 交 互 的 桥梁 。Client 提 供 了 一 些 接口 ， 
利用 这 些 接口 用 户 可 以 查看 作业 的 运行 状态 。MapReduce 程 序 用 “作业 ”来 表示 。 每 个 
MapReduce 程序 可 对 应 许多 个 作业 ， 而 每 个 作业 会 被 划分 成 多 个 Map/Reduce 任 务 。 

2. JobTracker 


JobTracker 负 责 资源 的 监控 以 及 作业 的 调度 ， 它 在 主 节 点 上 单独 工作 。JobTracker 主 要 是 
监控 所 有 TaskTracker 和 作业 的 状态 ， 如 果 发 现 有 故障 ，JobTracker 就 会 将 相应 的 任务 转 分 配给 
其 他 节点 去 完成 。 同 时 ，JobTracker 也 会 处 理 一 些 细节 的 工作 ， 比 如 监控 任务 执行 到 哪 一 步 
了 ,资源 使 用 的 情况 等 ， 并 将 获取 到 的 结果 转达 给 任务 调度 器 ， 让 其 去 分 配 更 符合 的 任务 来 
调用 这 些 资源 。 

3. TaskTracker 


TaskTracker 所 做 的 工作 是 每 隔 一 段 时 间 就 向 JobTracker 报 告 本 节点 上 的 资源 使 用 状况 、 任 
务 的 调用 和 执行 情况 ， 同 时 对 JobTracker 发 送 过 来 的 命令 进行 接收 并 且 执 行 相应 的 动作 ( 比 
如 开启 、 关 闭 任务 等 ) 。 

4. Task 


Task 是 由 TaskTracker 启 动 的 具体 任务 ， 包 括 Map Task 和 Reduce Task。HDFS 存 储 数据 的 基 
本 单位 为 block， 而 MapReduce 的 处 理 单位 是 split。split 里 只 具有 一 些 基 本 的 数据 信息 ， 比 如 数 
据 的 长 度 、 起 始 位 置 、 所 属 节点 等 。 用 户 可 以 自行 决定 其 分 解 方 法 。 由 于 每 个 split 由 一 个 Map 
Task 负 责 ， 因 此 split 越 多 ，Map Task 也 越 多 。 
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4.5.1 Map 和 Reduce 函 数 


前 面 提 到 过 ， 用 户 只 需要 根据 任务 要 求 编写 TY 
MapReduce 中 的 Map0 和 Reduce0 这 两 个 函数 ， 即 可 完成 简 人 | 


全 图 全 
4.5.2 MapReduce 工 作 流 程 


MapReduce 在 大 数据 处 理 中 有 着 举 是 若 轻 的 地 位 ， EE 
那么 其 工作 流程 是 怎样 的 呢 ? 图 4.54 为 MapReduce 工 作 流 。 图 453 MapReduce 原 理 示意 图 
程 示意 图 。 


se Map/Reduce | 全 国 

单 的 分 布 式 程序 设计 。 以 下 是 MapReduce 中 这 两 个 过 程 : A 
的 公式 表达 。 

Map 过 程 : Map(keyl,valuel) 一 list(key2,value2) 一 i 图 

Reduce 过 程 : Reduce(key2, list (value2)) 一 list(value3) 男 仿 国 下 全 

下 面 用 图 4.53 来 帮助 读者 理解 MapReduce 原 理 。 : 多 

色 

@ 


TaskTracker 节 点 


图 4.54 ”MapReduce 工 作 流程 图 
1. 工作 流程 概述 
图 4.54 展 示 了 MapReduce 的 工作 流程 ， 该 流程 的 主要 处 理 步骤 如 下 。 
(1) 首先 ， 在 Client 处 启动 一 个 job。 
(2 ) 向 JobTracker 请 求 为 作业 分 配 一 个 ID。 
(3 ) 复制 作业 的 资源 文件 到 HDFS 上 ， 这 些 资源 包括 MapReduce 程 序 打包 的 JAR 文 件 、 配 


置 文件 和 客户 端 计算 所 得 的 输入 划分 信息 。 这 些 文件 都 能 在 JobTracker 专 门 为 该 作业 创建 的 文 
件 夹 中 找 得 到 。 文 件 夹 的 名 字 是 该 作业 的 Job ID。 
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(4 ) JobTracker 在 接收 到 作业 后 ， 将 该 作业 放 在 一 个 作业 队列 里 ， 并 且 等 待 作业 调度 器 
对 其 进行 调度 。 当 作业 调度 器 调度 到 该 作业 时 ,会 依照 输入 划分 信息 ， 为 每 个 划分 的 部 分 建 
立 一 个 Map 任 务 ， 并 将 Map 任 务 交付 给 TaskTracker 执 行 。 

(5 ) TaskTracker 每 隔 一 段 时 间 会 给 JobTracker 发 送 一 个 Heartbeat ( 心跳 ) ,告诉 
JobTracker 它 的 状态 ， 同 时 在 Heartbeat 中 还 携带 着 很 多 诸如 Map 任 务 完成 的 进度 等 信息 。 

(6 ) 在 JobTracker 收 到 job 的 最 后 一 个 Map/Reduce 任 务 完 成 的 消息 后 ， 就 会 把 该 job 的 状态 
更 改 为 “成 功 ”。 当 JobClient 进 行 作业 查询 的 状态 时 ， 即 可 发 现 该 任务 已 经 完成 。 

2. MapReduce 各 个 执行 阶段 


通常 说 来 ，Hadoop 的 一 个 简单 的 MapReduce 任 务 ， 执 行 的 各 个 阶段 流程 和 所 用 到 的 各 部 
分 功能 如 图 4.55 所 示 。 该 流程 的 主要 处 理 步骤 如 下 。 


Nodel Node2 


Files loaded from local HDF'S stores Files loaded from local HDFS stores 


InputFormat InputFormat 
RecordReaders; | RR RR RR RR RR RR 
Input( k,v ) pairs Input( k,v ) pairs 
Intermediate (k, v )pairs Intermediate 
(k, v )pairs 
Partitioner “shuffling” Partitioner 
Process 
妈 一 一 一 | Intermediate 一 
(sort) Cp (sort) 
by all nodes 
Final( k, v )pairs Final( k, v )pairs 
Writeback to Writeback to 
local HDFS local HDFS 
| store store 
| 2 Lr 


图 4.55 ”MapReduce 各 个 阶段 流程 图 
(1 ) JobTracker 在 分 布 式 环境 中 负责 客户 端 对 任务 的 建立 和 提交 。 
(2 ) InputFormat 模 块 主要 为 Map 做 预 处 理 。 
(3 ) RecordReader 处 理 后 的 结果 作为 Map 的 输入 ， 然 后 Map 执 行 定 义 的 Map 逻 辑 ， 输 出 处 
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理 后 的 key/value 对 到 临时 中 间 文件 。 

(4 ) Shuffle&Partitioner， 这 两 部 分 的 功能 主要 是 负责 对 输出 的 结果 进行 排序 、 分 割 和 配 
置 。 在 MapReduce 流 程 中 ,为 了 让 Reduce 可 以 并 行 处 理 Map 结 果 ， 必 须 由 Shuffle 对 Map 的 输出 
进行 一 定 的 排序 和 分 割 处 理 ， 然 后 再 交 给 对 应 的 Reduce。Partitioner 为 Map 的 结果 配置 相应 的 
Reduce， 当 Reduce 很 多 的 时 候 比较 实用 ， 因 为 它 会 分 配 Map 的 结果 给 某 个 Reduce 进 行 处 理 ， 
然后 输出 其 单独 的 文件 。 

(5 ) Reduce 处 理 实际 的 任务 ， 得 到 结果 ， 并 且 将 结果 传递 给 OutputFormat。 

(6 ) OutputFormat 用 于 测试 是 否 已 有 输出 目录 ， 以 及 测试 输出 结果 的 类 型 是 否 属于 
Config 中 配置 类 型 ， 若 成 立 则 输出 Reduce 汇 总 后 的 结果 。 

3. Shuffle 过 程 详解 

Shuffle 过 程 是 MapReduce 工 作 流程 的 关键 ， 它 属于 不 断 被 优化 和 改进 的 代码 库 的 一 部 分 。 
认识 Shuffle 对 于 学 习 MapReduce 是 很 重要 的 。 

在 Map 和 Reduce 的 两 端 之 间 都 有 Shuffle 过 程 ， 它 负责 对 数据 从 Map task 输 出 到 Reduce task 
输入 的 这 段 过 程 进行 解释 。 

(1) Map 端 的 Shuffle 过 程 

在 Map 端 的 Shuffle 过 程 主要 是 对 Map 的 结果 进行 处 理 ， 分 为 三 个 步骤， 分 别 是 : partition 
(划分 ) 、sort (排序 ) 和 spill ( 溢 写 ) ， 然 后 合并 属于 同一 个 划分 的 输出 ， 再 写 到 磁盘 上 ， 
同时 根据 不 同 的 划分 将 结果 发 送 给 相应 的 Reduce ( Map 输 出 的 划分 与 Reduce 的 对 应 关系 由 
JobTracker 确 定 ) 。Reduce 端 又 会 将 各 个 Map 送 来 的 属于 同一 个 划分 的 结果 合并 ( merge ) ， 接 
着 对 合并 的 结果 进行 排序 ， 最 后 输出 给 Reduce 进 行 处 理 ， 如 图 4.56 所 示 。 


Copy “Sort” Reduce 
phase phase phase 
artitigi 
map task P: reduce task 
pe 和 0 oo -| we 
buffer in -| ee 了 merge 
和 让 . rr” merge educa ->| 
; _ 淹 
input ps on merge i output 
spht re 
partitions 


| 
mixture of in-memory and on-disk data 


Other maps > Other reduces 
图 4.56 ”Map 端 的 Shuffle 过 程 图 

为 了 清晰 地 说 明 划 分 、 排 序 与 合并 在 MapReduce 工 作 流 程 中 所 处 的 位 置 ， 读 者 可 以 通过 
如 图 4.57 所 示 的 对 某 个 假想 的 Map task 的 运行 情况 来 理解 。 

通常 在 每 个 Map task 中 都 有 一 个 内 存 缓冲 区 ， 用 于 存放 Map 的 输出 结果 ， 然 而 当 内 存 缓冲 
区 不 足 时 ， 需 要 将 缓冲 区 的 数据 先 放 在 磁盘 中 ， 以 一 个 临时 文件 的 方式 保存 ， 等 到 整个 Map 
task 结 束 后 ， 再 将 磁盘 中 这 个 Map task 产 生 的 所 有 临时 文件 取出 来 进行 合并 ， 得 到 最 后 的 正式 
输出 文件 ， 并 等 待 Reduce task 来 获取 数据 。 
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Map 端 的 Shuffle 可 分 为 四 个 过 程 : O 

@ Map task 执 行 input 

Map task 从 HDFS 的 Block 中 获取 输入 数据 。 ree ] 

@ Mapper 和 运行 

Mapper 输 出 一 个 key/value 对 。 人 

@@ spill [ Buffer | 

因为 内 存 缓冲 区 具有 一 定 的 大 小 限制 ， 所 以 如 果 Map Oc 


task 的 输出 有 很 多 的 时 候 ， 内 存 可 能 会 发 生 溢出 的 情况 。 A 
因此 ， 在 发 生 这 种 情况 之 前 需要 将 缓冲 区 中 的 数据 临时 | merge | 
写 人 到 磁盘 ， 以 腾 出 足够 的 空间 来 利用 。 把 这 个 过 程 称 图 1 57 Mon wack 运行 情况 图 
之 为 Spill ( 滋 写 ) 。 

@ Merge 

因为 每 次 溢 写 都 会 生成 一 个 溢 写 文件 ， 所 以 ， 如 果 Map 的 输出 结果 很 多 时 ,磁盘 上 的 溢 
写 文件 就 会 有 很 多 。 以 上 只 是 Map 的 中 间 过 程 ， 当 Map task 真 正 完成 时 ， 全 部 的 溢 写 文件 将 会 
在 磁盘 中 合并 成 为 一 个 。 因 为 最 终 只 有 一 个 溢 写 文件 存在 ， 所 以 将 这 些 溢 写 文件 归并 到 一 起 
的 过 程 就 叫做 Merge。 

当 Map task 结 束 后 ， 开 始 Reduce 端 的 Shuffle 过 程 。 

(2 ) Reduce 端 的 Shuffle 过 程 

如 果 当 前 的 Reduce 想 要 执行 复制 数据 的 操作 ， 它 要 从 JobTracker 那 知道 已 经 结束 的 Map 
task。Reduce 在 运行 之 前 的 准备 工作 是 获取 数据 和 合并 ， 这 个 过 程 不 会 停止 。 

Reduce 端 的 Shuffle 有 3 个 过 程 ， 如 图 4.58 所 示 。 


图 4.58 ” ”Reduce 端的 Shuffle 过 程 图 
@ copy 阶 段 
主要 任务 是 获取 数据 。Reduce 会 接收 到 不 同 Map 任 务 传 来 的 有 序 的 数据 。Reduce 进 程 启 
动 一 些 数据 copy 线 程 ( Fetcher ) » 通过 HTTP 方 式 请 求 Map task 所 在 的 TaskTracker 来 获取 Map 
task 的 输出 文件 。 因 为 Map task 在 Shuffle 的 前 一 个 过 程 中 早已 结束 ， 所 以 在 本 地 磁盘 中 的 这 些 
文件 就 由 TaskTracker 来 管理 。 
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@) merge 阶 段 

Reduce 端 的 merge 与 Map 端 的 merge 操 作 相同 ， 不 一 样 的 是 ， 数 组 中 存放 的 是 不 同 Map 端 
copy 来 的 数值 。 类 似 地 ， 当 溢 写 文件 增多 时 ， 后 台 线 程 就 会 启动 操作 ， 将 它们 合并 成 为 一 个 
更 大 的 、 有 序 的 文件 ， 这 样 便 能 给 后 面 的 合并 节省 时 间 ， 提 高 了 效率 。 所 以 读者 能 够 看 出 ， 
无 论 是 在 Map 端 ， 亦 或 是 在 Reduce 端 ，MapReduce 主 要 做 的 工作 都 是 排序 以 及 合并 。 因 此 常常 
有 人 说 : 排序 是 Hadoop 的 灵魂 。 

@ reducer 输 入 文件 阶段 

MapReduce 会 将 写 人 磁盘 的 数据 尽量 减少 ， 这 些 数 据 是 在 合并 的 过 程 中 生成 的 ， 而 且 
它 会 将 最 后 一 次 合并 的 结果 直接 传送 到 Reduce 函 数 中 而 不 是 写 人 磁盘 。 在 经 过 多 次 merge 操 
作 后 ， 会 在 磁盘 或 者 内 存 中 产生 一 个 “最 终 文 件 ”。 整 个 Shuffle 最 终结 束 的 标志 是 确定 了 
Reducer 的 输入 文件 是 哪个 。 最 后 是 执行 reducer， 并 将 结果 保存 到 HDFS 上 。 

简单 说 来 ，Reduce task 在 执行 之 前 的 工作 就 是 不 断 地 获取 当前 job 里 每 个 Map task 的 最 终结 
果 ， 然 后 对 从 不 同 来 源 的 数据 不 断 地 做 merge， 最 终 形成 一 个 文件 作为 Reduce task 的 输入 文件 。 


4.5.3 并行 计算 的 实现 

对 于 一 些 由 大 量 通 用 计算 机 组 成 的 集群 来 说 ，MapReduce 是 能 帮助 它们 运行 并 行程 序 的 
一 个 重要 的 计算 模型 。 由 集群 中 每 一 个 单独 的 节点 来 执行 每 一 个 Map 和 Reduce 任 务 ， 运 算 速 度 
之 快 、 效 率 之 高 是 不 言 而 喻 的 。 下 面 介 绍 一 下 实现 并 行 计算 所 需要 的 几 个 必 不 可 少 的 部 分 。 

1. 数据 分 布 存储 


回顾 一 下 HDFS 的 结构 ( 如 图 4.59 所 示 ) 。HDFS 主 要 是 由 一 个 NameNode 和 N 个 DataNode 组 
成 ， 分别 扮演 的 是 管理 者 和 工作 者 的 角色 ， 每 台 通 用 计算 机 均 用 节点 来 表示 。HDFS 能 够 对 文 
件 进 行 各 种 各 样 的 操作 ， 比 如 创建 目录 ， 创建、 复制 、 删 除 文件 和 查看 文件 的 内 容 等 。 但 是 
HDFS 的 底层 把 文件 分 为 一 个 个 Block， 然 后 把 这 些 Block 分 散 地 存放 在 不 同 的 DataNode 上 ， 
并 且 每 个 Block 还 可 以 复制 成 多 份 数据 存放 在 不 同 的 DataNode 上 ， 因 此 能 及 时 恢复 因 灾难 或 
者 错误 而 丢失 的 数据 。NameNode 以 维护 数据 结构 的 方式 来 收录 每 一 个 文件 被 分 成 了 多 少 个 
Block、 这 些 Block 来 源 于 哪个 DataNode， 以 及 各 个 DataNode 的 状态 和 详情 等 重要 信息 。 

HDFS Architecture 


Metadata ( Name, replicas ，… ): 
/home/foo/data, 3，… 


国 贺 国 
图 Blotks 


Rack 2 


图 4.59 ”HDFS 架 构图 
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2. 分 布 式 并 行 计算 


读者 已 经 知道 ，JobTracker 是 Hadoop 中 一 个 主要 的 组 成 部 分 ,负责 调度 和 管理 其 他 的 
TaskTracker。 作 为 一 个 “管理 者 ”，JobTracker 可 以 在 集群 中 的 任意 一 台 计 算 机 上 工作 。 
TaskTracker 则 担任 “工作 者 ”的 角色 ， 执 行 具体 的 任务 ， 它 必须 运行 于 DataNode 上 ， 换 言 
之 ，DataNode 既 有 存储 数据 的 功能 ， 又 有 对 数据 进行 计算 的 功能 。 然 后 ，JobTracker 负 责 把 
Map 任 务 和 Reduce 任 务 分 发 给 处 于 空闲 状态 的 TaskTracker， 并 且 使 得 这 些 任务 并 行 执行 ， 以 
及 监控 任务 的 运行 情况 。 当 某 个 TaskTracker 出 故障 时 ，JobTracker 会 将 其 任务 转交 给 另 一 个 处 
于 空闲 状态 的 TaskTracker 重 新 运行 。 

图 4.60 是 Hadoop JobTracker 的 示意 图 。 


一 TI ] | Ta [™ ca Task a Task ] | Tah 


Hadoop Black Box 


图 4.60 ”Hadoop Job Tracker 的 示意 图 


3. 本 地 计算 


本 地 计算 的 特点 是 存储 数据 的 计算 机 负责 计算 所 存储 的 数据 ， 这 样 一 来 就 可 以 大 大 降低 
网 络 上 数据 的 传输 次 数 ， 有 效 地 节省 带宽 。Hadoop 是 采用 集群 方式 的 分 布 式 并 行 系统 ， 节 点 
扩充 起 来 比较 方便 ， 因 此 它 可 以 提供 强大 的 计算 能 力 。 但 是 由 于 数据 需要 在 不 同 的 计算 机 之 
间 流 动 ， 故 对 网 络 带 宽 要 求 高 的 问题 逐渐 凸显 出 来 。 因 为 “本 地 计算 ”能 够 在 很 大 程度 上 节 
约 带宽 资源 ， 所 以 业界 有 说 法 称 “ 移 动 计算 比 移动 数据 更 经 济 ” 

4. 任务 粒度 


在 划分 原始 的 大 数据 集 时 ， 通 常 的 原则 是 令 分 割 后 的 小 数据 集 等 于 或 是 小 于 文件 系统 中 

一 个 数据 块 的 大 小 ( 一 般 默认 为 64MB ) ， 如 此 能 够 确保 一 个 独立 的 小 数据 集 被 分 配 到 一 台 计 

算 机 上 ,方便 本 地 计算 任务 的 进行 >?。 例 如 ， 如 果 有 M 个 小 数据 集 需要 处 理 ， 就 启动 M 个 Map 

任务 ,注意 这 M 个 Map 任 务 分 布 于 N 台 计算 机 上 ， 它 们 会 并 行 运行 ， 而 用 户 也 可 以 指定 Reduce 
任务 的 数量 R。 
5. Partition 


Partition 是 选择 配置 ， 主 要 功能 是 在 多 个 Reduce 的 情况 下 ,分配 Map 的 结果 给 某 个 Reduce 
进行 处 理 ， 然 后 输出 其 单独 的 文件 。 例 如 ，Reduce 任 务 有 R 个 ， 则 把 Map 任 务 输出 的 中 间 结 果 
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按 key 的 范围 划分 成 R 份 ， 通 常 根据 hash(key) mod R 函 数 来 划分 。 如 此 划分 的 目的 主要 是 为 了 
确保 由 同一 个 Reduce 任 务 来 对 某 一 段 范围 之 间 的 key 进 行 处 理 ， 进 而 使 Reduce 过 程 更 简单 "。 


6. Combine 


在 对 key 值 进行 划分 前 ， 还 可 以 先 对 中 间 过 程 的 结果 进行 合并 ( Combine ) ， 也 就 是 先 将 
中 间 结 果 中 同样 key 值 的 键 值 对 合并 成 一 对 。Combine 不 是 必须 的 ， 但 由 于 它 的 主要 作用 是 在 
每 一 个 Map 执 行 完 分 析 以 后 ， 在 本 地 优先 作 Reduce 的 工作 ， 因 此 可 以 减少 在 Reduce 过 程 中 的 
数据 传输 量 。 

由 于 Combine 过 程 与 Reduce 过 程 较 相 似 ， 在 大 部 分 情形 下 能 够 直接 使 用 Reduce 函 数 。 然 而 
Combine 属 于 Map 任 务 的 其 中 一 个 部 分 ， 它 是 紧 跟 着 Map 函 数 执行 的 。Combine 的 加 入 可 以 减少 
键 值 对 在 中 间 结 果 中 的 数目 ， 进 而 达到 降低 网 络 流量 的 目的 。 

7. Reduce 任 务 从 Map 任 务 节点 获取 中 间 结 果 

在 完成 Partition 和 Combine 过 程 后 ，Map 任 务 输出 的 中 间 结 果 会 形成 文件 并 存放 在 本 地 磁 
盘 中 ， 主 控 JobTracker 会 被 告知 其 位 置 。 之 后 ，JobTracker 再 通知 Taskjob 任 务 去 DataNode 上 存 
储 中 间 结 果 的 位 置 去 读数 据 。 值 得 注意 的 是 ，Map 任 务 输 出 所 有 的 中 间 结 果 都 将 使 用 同一 个 
hash 函 数 把 key 值 分 为 R 份 ， 每 段 key 值 区 间 由 一 个 单独 的 Reduce 任 务 负责 处 理 。 每 个 Reduce 
任务 首先 需要 在 多 个 Map 任 务 节点 中 获取 属于 其 负责 的 key 值 区 间 内 的 中 间 结 果 ， 进 而 执行 
Reduce 函 数 ， 最 后 输出 一 个 最 终 的 结果 文件 。 

8. 任务 管道 

如 果 有 R 个 Reduce 任 务 ， 就 会 产生 R 个 最 终结 果 。 大 部 分 情形 下 这 R 个 结果 并 不 需要 合并 
成 一 个 最 终结 果 ， 因 为 这 R 个 结果 又 可 以 成 为 另 一 个 计算 任务 的 输入 数据 ， 开 启 另 一 个 并 行 
计算 任务 ， 因 此 这 个 过 程 也 就 形成 了 任务 管道 。 


有 4.6 ”实例 分 析 : WordCount 


如 果 想 统计 过 去 计算 机 论文 中 出 现 次 数 最 多 的 几 个 单词 是 什么 ， 可 以 实现 的 方法 大 致 有 
如 下 几 种 。 

(1) 写 一 个 小 程序 ， 把 所 有 论文 按 顺序 遍历 一 遍 ， 对 每 一 个 遇 到 的 单词 出 现 的 次 数 进 
行 统计 ， 最 后 就 可 以 知道 哪 几 个 单词 最 热门 了 。 这 种 方法 在 数据 集 比较 小 的 情况 下 非常 合 
适 ， 且 很 有 效 ， 实 现 起 来 也 最 简单 。 

(2) 写 一 个 多 线程 程序 ， 并 发 地 遍历 论文 。 理 论 上 是 可 以 高 度 并 发 的 ， 因 为 统计 一 个 
文件 时 不 会 影响 另 一 个 文件 的 统计 。 该 方法 在 使 用 多 核 机 器 或 多 处 理 器 时 工作 效率 比方 法 
(1 ) 高 。 但 是 ， 写 一 个 多 线程 程序 要 复杂 得 多 ， 开 发 者 需要 自己 去 同步 共享 数据 ， 比 如 要 防 
止 两 个 线程 重复 统计 文件 这 种 情况 发 生 。 
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(3 ) 由 多 台 计 算 机 完成 一 个 作业 。 可 以 使 用 方法 ( 1 ) 的 程序 ， 在 N 台 机 器 上 部 署 ， 接 
着 把 论文 集 分 成 N 份 ， 每 个 作业 由 一 人 台 机 器 运行 。 这 个 方法 运行 速度 足够 快 ， 但 是 部 署 起 来 
很 麻烦 : 既 要 人 工 把 论文 集 分 开 ， 复制 到 各 台 机 器 ， 还 要 整合 这 N 个 运行 结果 。 

(4) 使 用 MapReduce。MapReduce 实 际 上 就 是 方法 (3 ) ,但 对 于 如 何 拆 分 文件 集 ， 如 
何 复制 程序 ， 如 何 整 合 结果 这 些 问 题 的 解决 方案 都 是 MapReduce 框 架 定 义 好 的 。 开 发 人 员 只 
要 定义 好 这 个 任务 ( 用户 程 序 ) ， 其 他 工作 都 由 MapReduce 去 处 理 。 

每 个 拿 到 原始 数据 的 计算 机 只 需要 负责 切 分 输入 的 数据 成 为 单词 即 可 ， 所 以 单词 的 切 
分 任务 可 以 在 Map 阶 段 去 完成 。 另 外 ， 对 于 相同 单词 的 频数 计算 也 可 以 进行 并 行 化 处 理 ， 方 
法 是 将 相同 的 单词 交 给 一 台 机 器 去 统计 数量 ， 然 后 输出 最 终结 果 ， 这 个 任务 可 以 交 由 Reduce 
阶段 去 完成 。 关 于 如 何 将 中 间 结 果 根 据 不 同 单词 分 组 发 送 给 Reduce 机 器 ， 这 部 分 工作 由 
MapReduce 过 程 中 的 Shuffle 去 完成 。 图 4.61 所 示 为 MapReduce 进 行 过程 示 意图 。 

MapReduce Flow 

Split Input into 
Key-Value pairs. 


For each K-V 
pair call Map. 


Each Map 
produces new 
set of K-V pairs. 


For each distinct 
key, call reduce. 
Produces one K~V 
pair for each 
distinct key. 


Output as a set 


of Key Value 
Pairs. 
(a) 
MapReduce WordCount Example 
Input: Output: 
File containing words Number of occurrences 
of each word 
Hello World Bye World 
Hello Hadoop Bye Hadoop MapReduce 
Bye Hadoop Hello Hadoop 


How can we do this within the MapReduce framework? 
Basic idea: parallelize on lines in input file! 


(b) 
图 4.61 MapReduce 运 行 过 程 示意 图 
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4.6.1 WordCount 设 计 思 


WordCount 的 整个 设计 思路 如 下 。 

(1) Map 阶 段 主要 任务 是 划分 输入 数据 为 单词 。 

(2 ) Shuffle 阶 段 对 相同 的 单词 进行 聚集 和 分 发 ( 这 个 过 程 属于 MapReduce 的 默认 过 程 ， 
不 需要 具体 配置 ) 。 

(3 ) Reduce 阶 段 接 收 所 有 的 单词 并 且 统 计 各 单词 的 频数 。 

由 于 MapReduce 中 传递 的 数据 都 是 <key, value> 形 式 的 ， 并 且 Shuffle 排 序 聚集 分 发 是 按照 
key 值 进行 的 ， 因 此 ， 将 Map 的 输出 设计 成 由 word 表 示 key，1 表 示 value 的 形式 。 它 表明 单词 出 
现 了 1 次 (Map 的 输入 方式 为 Hadoop 默 认 方式 ， 即 文件 的 一 行 表 示 value， 行 号 表示 key ) 。 

Reduce 输 入 的 是 Map 输 出 聚集 后 的 结果 ， 即 <key, value-list>， 对 于 本 实例 就 是 <word， 
{1,1,1,1,…}>。Reduce 输 出 的 是 与 Map 输 出 相同 的 形式 ， 只 是 后 面 的 数值 不 再 是 固定 的 1， 而 是 
具体 算出 的 word 所 对 应 的 数量 。 

经 历 过 程 如 下 。 

Input 

Hello World Bye World 


Hello Hadoop Bye Hadoop 
Bye Hadoop Hello Hadoop 
Map 
<Hello,1> 
<World,1> 
<Bye,1> 
<World, 1> 
<Hello,1> 
<Hadoop,1> 
<Bye,1> 
<Hadoop,1> 
<Bye,1> 
<Hadoop, 1> 
<Hello,1> 
<Hadoop, 1> 
Sort 
<Bye,1> 
<Bye,1> 
<Bye,1> 
<Hadoop,1> 
<Hadoop, 1> 
<Hadoop, 1> 
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<Hadoop, 1> 
<Hello,1> 
<Hello,1> 
<Hello,1> 
<World,1> 
<World,1> 
Combine 
<Bye,1,1,1> 
<Hadoop,1,1,1,1> 
<Hello,1,1,1> 
<World,1,1> 
Reduce 
<Bye, 3> 
<Hadoop, 4> 
<Hello,3> 
<World, 2> 


4.6.2 ”WordCount 代 码 ? 
WordCount 代 码 具体 如 下 所 示 。 


package com.felix; 

import java.io.IOException; 

import java.util.Iterator; 

import java.util.SstringTokenizer; 

import org.apache.hadoop.fs.Path; 

import org.apache.hadoop.io.IntWritable; 

import org.apache.hadoop.io.LongWritable; 

import org.apache.hadoop.io.Text; 

import org.apache.hadoop.mapred.FileInputFormat; 
import org.apache.hadoop.mapred.FileOutputFormat; 
import org.apache.hadoop.mapred.JobClient; 
import org.apache.hadoop.mapred.JobConf; 

import org.apache.hadoop.mapred.MapReduceBase; 
import org.apache.hadoop.mapred.Mapper; 

import org.apache.hadoop.mapred.OutputCollector; 
import org.apache.hadoop.mapred.Reducer; 

import org.apache.hadoop.mapred.Reporter; 


©® http://www.docin.com/p—144322396.html. 
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import org.apache.hadoop.mapred.TextInputFormat; 
import org.apache.hadoop.mapred.TextOutputFormat; 
public class WordCount 
{ 
/** 
* MapReduceBase 类 : 实现 了 Mapper 和 Reducer 接 口 的 基 类 ( 其 中 的 方法 只 是 实现 接口 ， 而 未 作 任 
何事 情 ) 
Mapper 接 口 : 
* WritableComparable 接 口 : 实现 WritableComparable 的 类 可 以 相互 比较 。 所 有 被 用 作 key 的 
类 应 该 实现 此 接口 。 
* Reporter 可 用 于 报告 整个 应 用 的 运行 进度 ， 本 例 中 未 使 用 。 
i 
要 大 
Public static class Map extends MapReduceBase implements 
Mapper<LongWritable, Text, Text, IntWritable> 


炎炎 
* LongWritable，IntWritable，Text 均 是 Hadoop 中 实现 的 用 于 封装 Java 数据 类 型 
的 类 ， 这些 类 实现 了 WritableComparable 接 口 。 
* 都 能 够 被 囊 行 化 从 而 便于 在 分 布 式 环境 中 进行 数据 交换 ， 读 者 可 以 将 它们 分 别 视 为 1ong， 
int 和 String 的 替代 品 。 

en 

private final static IntWritable one = new IntWritable(1); 

private Text word = new Text(); 

/** 

* Mapper 接 口中 的 Map 方 法 : 

* void map (K1 key, V1 value, OutputCollector<K2,V2> output, Reporter 
reporter) 

* 映射 一 个 单个 的 输入 k/v 对 到 一 个 中 间 的 k/v 对 

* 输出 对 不 需要 和 输入 对 类 型 相同 ， 输 入 对 可 以 映射 到 0 个 或 多 个 输出 对 。 

* OutputCollector 接 口 : 收集 Mapper 和 Reducer 输 出 的 <k,v> 对 。 

* OutputCollector 接 口 的 collect (k，vV) 方 法 : 增加 一 个 (k,v) 对 到 output 

A 
public void map (LongWritable key, Text value, 

OutputCollector<Text, IntWritable> output, Reporter reporter) 
throws IOException 
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String line = value.toString(); 
StringTokenizer tokenizer = new StringTokenizer (line); 
while (tokenizer.hasMoreTokens ()) 
全 
word.set (tokenizer.nextToken()); 


output.collect (word, one); 


下 
Public static class Reduce extends MapReduceBase implements 


Reducer<Text, IntWritable, Text, IntWritable> 


public void reduce (Text key, Iterator<IntWritable> values, 
OutputCollector<Text, IntWritable> output, Reporter reporter) 


throws IOException 


int sum = 0; 
while (values.hasNext ()) 
{ 
sum += values.next () .get (); 
} 
output .collect (key, new IntWritable (sum)); 


} 
public static void main(String[] args) throws Exception 
{ 
/** 
* JobConf: map/reduce 的 job 配 置 类 ， 向 Hadoop 框 架 描述 map-reduce 执 行 的 工作 
* 构造 方法 : JobConf ()、JobConf (Class exampleClass)、JobConf 
(Configuration conf) 等 。 


A 
JobConf conf = new JobConf (WordCount.class); 
conf.setJobName ("wordcount"); // 设 置 一 个 用 户 定义 的 job 名 称 


conf.setOutputKeyClass (Text .class); // 为 job 的 输出 数据 设置 Key 类 
conf. setOutputValueClass (IntWritable.class); // 为 job 输出 设置 value 类 
conf.setMapperClass (Map.class); // 为 job 设置 Mapper 类 

conf .setCombinerClass (Reduce .class) 7 // 为 job 设置 Combiner 类 
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conf. setReducerClass (Reduce -class) :7 // 为 job 设置 Reduce 类 

conf .setInputFormat (TextInputFormat -class) 7 // 为 map-reduce 任 务 设 置 
InputFormat 实 现 类 

conf. setOutputFormat (TextOutputFormat .class); // 为 map-reduce 任 务 设置 
OutputFormat 实 现 类 

x 六 


* InputFormat 描 述 map-reduce 中 对 job 的 输入 定义 
* setInputPaths() : 为 map-reduce job 设 置 路 径 数组 作为 输入 列表 
* setInputPath () : 为 map-reduce job 设 置 路 径 数组 作为 输出 列表 
i 
FileInputFormat.setInputPaths (conf, new Path(args[0])); 
FileOutputFormat .setOutputPath (conf, new Path(args[1])); 
JobClient .runJob (conf); // 运 行 一 个 job 


4.6.3 ”过 程 解释 

Map 操 作 的 是 将 输入 转换 成 <key,value> 的 形式 ， 其 中 ，key 是 文档 中 某 行 的 行 号 ，value 是 
该 行 的 内 容 。Map 操 作 会 将 输入 文档 中 每 一 个 单词 的 出 现 输出 到 中 间 文 件 中 去 ， 如 图 4.62 
所 示 。 


Input Output 


1, "Hello World Bye World” <Hello,1> 
<World,1> 
<Bye,1> 

<World,1> 


2, “Hello Hadoop Bye Hadoop” <Hello,1> 
<Hadoop,1> 


<Bye,1> 
<Hadoop,1> 


3, "Bye Hadoop Hello Hadoop” <Bye,1> 
<Hadoop,1> 
<Hello,1> 
<Hadoop,1> 


图 4.62 ”Map 操 作 过 程 示意 图 
Reduce 操 作 的 是 输入 的 单词 和 该 单词 出 现 次 数 的 序列 ， 如 <"Hello"，[11.1]>，< "World"， 
[1,1] >，< "Bye"，[111] >，< "Hadoop"，[1,1,1,1] > 等 。 然 后 根据 每 个 单词 ， 算 出 总 的 出 现 
次 数 。 最 终 的 结果 是 : < "Bye".3>，< "Hadoop".4> ，< "Hello",3>，< "World",2>， 如 图 
4.63 所 示 。 
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Input 


<Hello,1> 
<World,1> 
<Bye,1> 
<World,1> 


Internal Grouping 


<Hello,1> <Bye > 1,1,1> 
<Hadoop,1> 
<Bye,1> 

<Hadoop,1> <Hadoop > 1,1,1,1> Reduce 


Reduce 


用 


Output 


<Bye, 3> 


<Hadoop, 4> 


<Bye,1> <Helo >11.1> [eee <Hello 3> 
<Hadoop,1> <World, 2> 


<Hello,1> 
<Hadoop,1> <World 3 1,1> 


图 4.63 ”Reduce 操 作 过 程 示 意图 
整个 MapReduce 过 程 具体 的 运行 流程 如 下 。 
(1) 在 MapReduce Library 中 将 Input 分 成 M 份 。 
(2 ) Master 把 M 份 job 分 配给 处 于 空闲 状态 的 M 个 worker 来 处 理 。 
(3 ) 对 于 每 一 个 正 处 于 被 输入 状态 的 <key，value> 进 行 Map 操 作 ， 然 后 将 中 间 结 果 作 为 
缓冲 保存 在 内 存 中 。 
(4) 每 隔 一 段 时 间 (或 者 根据 内 存 状态 ) 将 缓冲 区 中 的 中 间 信 息 重新 写 到 本 地 磁盘 
上 ， 同 时 把 文件 信息 传 回 给 Master ( Master 需 要 把 这 些 文件 信息 传递 给 Reduce worker ) 。 
(5) R 个 Reduce worker 同 时 开始 工作 ， 从 不 同 的 Map worker 的 Partition 那 里 获得 数据 ， 接 
着 用 key 进 行 排序 。 
(6) 由 Reduce worker 对 中 间 数 据 进 行 遍历 ， 并 且 对 于 每 个 惟一 的 Key， 执 行 Reduce 函 数 
( 其 参数 是 该 key 以 及 其 相关 的 一 系列 value ) 。 
(7) 执行 完毕 后 ， 对 用 户 程序 进行 唤醒 并且 返回 结果 ( 最 后 的 Output 应 该 有 R 份 ， 每 
个 Reduce Worker 一 个 ) 。 
就 上 面 的 实例 来 说 ， 由 于 每 个 文档 中 都 一 一 0 
可 能 会 产生 许多 的 诸如 (“the”，1 ) 这 样 的 | Se 这 En ee 


中 间 结 果 ， 因 此 琐碎 的 中 间 文 件 很 大 程度 上 ye i 人 
会 导致 传输 上 的 损失 。 所 以 ，MapReduce 提 供 sai 让 
了 Combiner 函 数 来 支持 用 户 。 这 个 函数 通常 与 | <Hadoop, 1> ComebinSy| <Hello, 1> 

Reduce 函 数 实现 的 功能 相同 ， 不 同 的 地 方 是 | 我 So > Be 
Reduce 函 数 的 输出 是 最 终结 果 ， 而 Combiner 函 数 


输出 的 则 是 作为 Reduce 函 数 中 某 一 个 输入 的 中 | <Hadoop, 1> Comebin < EE 四 
间 文 件 ， 如 图 4.64 所 示 。 <Hadoop, 1> <Hello, 1> 
图 4.65 所 示 是 以 Combiner 输 出 结果 作为 输入 一 一 一 一 一 一 


的 Reduce 过 程 示 意图 。 


LL 


图 4.64 ”Combiner 函 数 过 程 示意 图 


146 | 大 数据 导论 : 关键 技术 与 行业 应 用 最 佳 实践 


Reduce Input 
<Hello,1> 
<World,2> 
<Bye,1> - 
Intemal Grouping 

<Hello,1> <Bye > 1,1,1> Reduce 

Hadoop,2: 
Bt > Reduce Output 

” <Hadoop > 2, 2> enee) 
<Bye, 3> 
<Bye,1> <Hadoop, 4> 
<Hadoop,2> <Hello > 1, 1, 1> Reduce <Hello, 3> 
<Hello,1> <World, 2> 
<World > 2> J Reduce 


图 4.65 ”以 Combiner 输 出 结果 作为 输入 的 Reduce 过 程 示意 图 


有 4.7 练习 


1. Hadoop 的 定义 是 什么 ? 简要 说 明 Hadoop 的 特点 。 

2. 在 Hadoop 的 体系 结构 中 两 个 核心 的 组 件 是 什么 ? 

3. 简 述 MapReduce 的 定义 以 及 其 中 包含 的 两 个 函数 Map() 和 Reduce0 的 原理 。 
4. MapReduce 的 工作 流程 有 哪 几 步 ? 

5. 你 还 能 想到 其 他 关于 Hadoop 的 应 用 实例 吗 ? 
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第 5 章 


数据 查询 和 分 析 的 高 级 技术 


数据 查询 和 数据 分 析 是 实现 数据 应 用 的 两 个 关键 步 又， 本 章 分 别 介绍 了 数据 查询 和 数据 
分 析 的 方法 和 技术 。 数 据 查 询 部 分 ， 详 细 介 绍 了 SQL on Hadoop 查 询 技 术 ， 其 中 包括 Hive 查 询 
技术 、 实 时 交互 SQL 查询 以 及 基于 PostgreSQL 的 SQL on Hadoop 查 询 技术 等 内 容 。 数 据 分 析 部 
分 ， 详 细 介绍 了 数据 基本 分 析 方 法 、 高 级 分 析 方法 以 及 可 视 化 技术 ， 并 介绍 了 一 些 数 据 分 析 
[ 具 ， 比 如 统计 分 析 工 具 、 数 据 挖掘 工具 以 及 可 视 化 设计 工具 等 


有 15.1 SQL on Hadoop 查 询 技术 


目前 大 部 分 的 大 数据 存储 都 不 是 基于 关系 型 数据 库 的 ， 所 以 用 传统 的 SQL 语言 来 操作 数 
据 的 方式 是 不 可 行 的 。 例 如 ， 前 面 介绍 过 的 Hadoop， 对 于 它 存 储 的 数据 就 无 法 直接 通过 SQL 
来 进行 查询 。 此 外 由 于 企业 已 经 习惯 了 小 数据 的 灵活 处 理 方式 ， 对 转 到 Hadoop 上 的 大 数据 处 
理 一 下 子 变 得 无 所 适 从 

很 多 传统 的 数据 库 和 数据 仓库 厂商 ( 如 Teradata 、Qracle 和 MySQL 等 ) 正在 研究 解决 办 
法 ， 它 们 的 思路 是 Hadoop 将 MapReduce 的 结果 存储 到 关系 型 数据 库 中 ， 然 后 再 查询 RDBMS， 
但 是 这 样 的 解决 方案 体现 不 出 Hadoop 的 高 效 性 。 

为 了 让 专业 分 析 技 术 人 员 通 过 SQL 语 言 来 操作 和 分 析 大 数据 ， 大 数据 查询 技术 一 一 SQL 
on Hadoop 发 展 了 起 来 。SQL on Hadoop 是 建立 在 Hadoop 上 的 SQL 查 询 技 术 ， 既 能 保证 Hadoop 
的 高 性 能 ， 又 结合 了 SQL 的 灵活 性 。SQL on Hadoop 处 于 起 步 阶 段 ，Hadoop 解 决 方案 对 于 SQL 
语言 支持 的 广度 和 深度 各 不 相同 ， 技 术 实践 方式 也 多 种 多 样 。 最 基本 的 方法 是 把 传统 的 SQL 语 
言 通过 中 间 转 换 后 再 进行 操作 。 例 如 当前 热门 的 Hive， 它 是 一 个 数据 仓库 基础 构架 ， 建 立 在 
Hadoop 上 。 另 外 ，Hive 还 提供 一 系列 的 工具 ， 从 而 实现 了 数据 提取 、 转 化 、 加 载 的 功能 ， 它 可 
以 存储 、 查 询 和 分 析 存 储 在 Hadoop 中 的 大 规模 数据 。Hive 是 把 SQL 语言 ( HiveQL，Hive 的 类 SQL 
语句 ) 编译 成 MapReduce， 从 而 读 取 和 操作 Hadoop 上 的 数据 。SQL on Hadoop 的 基础 技术 提供 了 
一 种 能 力 ， 让 企业 的 信息 管理 能 力 从 结构 化 数据 拓展 到 非 结构 化 数据 。SQL on Hadoop 技 术 仍 
在 不 断 地 发 展 ，IT 厂 商 也 推出 很 多 针对 Hive 的 优化 和 扩展 ， 它 们 大 致 分 为 以 下 3 种 情况 。 

一 是 Hive 的 性 能 改进 和 优化 。Stinger、Presto 也 类 似 于 Hive， 将 ANSI SQL 编译 成 
MapReduce。Stinger 通 过 对 原来 的 Hive 做 改进 ， 优 化 了 SQL 查询 的 速度 ， 使 其 完成 对 SQL 查询 
时 仅 需 要 5 ~ 30 秒 。 而 Presto 设 计 了 一 个 简单 的 数据 存储 的 抽象 层 ， 来 满足 在 不 同 数据 存储 系 
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统 (包括 HBase、HDFS 、Scribe 等 ) 上 都 可 以 使 用 SQL 进行 查询 。 

二 是 基于 PostgreSQL 的 Hadoop 分 析 。 如 Hadapt 的 技术 (也 称 为 DB on TOP ) ， 它 为 用 户 
分 析 Hadoop 里 面 的 数据 提供 了 一 体 化 的 分 析 环 境 ， 不 仅 可 以 分 析 SQL 环 境 中 传统 的 结构 化 数 
据 ， 还 可 以 解决 非 结 构 化 数据 。Hadapt 是 由 Hadapt 公 司 在 2010 年 提出 的 ， 以 EMC Greenplum 
HAWQ、Hadapt、Citus Data 为 代表 。 它 结合 了 Hadoop 环 境 和 关系 数据 库 环 境 ， 充 分 发 挥 了 两 
者 的 优点 ， 即 Hadoop 的 可 扩展 性 和 关系 数据 库 技 术 的 高 速 性 ， 它 还 可 以 在 Hadoop 层 和 关系 数 

一 据 库 层 之 间 自 动 划分 查询 执行 任务 。 

三 是 实时 交互 SQL 分 析 ， 如 Apache 的 Impala 和 Drill。Apache 的 Drill 项 目 最 初 的 目标 是 建 
立 共同 的 API 和 制定 架构 来 容纳 更 多 数据 源 、 数 据 格式 和 查询 语言 ， 已 经 获得 专业 MapR 的 支 
持 。Impala 是 Cloudera 在 受到 Google 的 Dremel 启 发 下 开发 的 实时 交互 SQL 大 数据 查询 工具 ， 它 
可 以 看 成 是 Coogle Dremel 架 构 和 MPP ( Massively Parallel Processing ) 结构 的 结合 体 。 


5.1.1 Hive: 基本 的 查询 技术 


Hive 是 由 Facebook 开 发 的 建立 在 Hadoop 上 的 数据 仓库 基础 构架 ， 是 用 来 管理 结构 化 数据 
的 中 间 件 。 它 架构 在 Hadoop 之 上 ， 以 Map-Reduce 为 执行 环境 ， 数据 存 储 在 HDFS 上 ， 元 数据 
存储 于 RDMBS 中 。 它 提供 了 一 系列 用 于 存储 、 查 询 和 分 析 大 规模 数据 的 工具 。Hive 适 用 于 长 
时 间 的 批 处 理 查询 分 析 。 

Hive 以 SQL 作为 数据 仓库 的 工具 ， 具 有 很 好 的 可 扩展 性 、 互 操作 性 和 容错 性 。 可 扩展 性 
表现 在 可 以 自由 扩展 集群 的 规模 ， 一 般 情况 下 不 需要 重启 服务 ， 而 且 支 持 用 户 自 定义 函数 。 用 
户 可 以 根据 自己 的 需求 来 实现 自己 的 函数 ; 互 操作 性 表现 在 它 是 一 个 可 以 支持 不 同 的 文件 和 
数据 格式 可 扩展 的 框架 ;良好 的 容错 性 表现 在 当 节 点 出 现 问题 时 ，SQL 仍 可 完成 执行 的 操作 。 

Hive 的 本 质 其实 是 一 个 SQL 解析 纪 | 擎 ， 它 将 SQL 语句 转译 成 MapReduce 的 工作 ， 然后 在 
Hadoop 执 行 ， 来 达到 快速 开发 的 目的 。 


1. Hive 的 体系 结构 


Hive 主 要 分 为 4 个 部 分 ， 如 图 5.1 所 示 。 ca | TR | Woh 

(1) 用 户 接口 i 

用 户 接口 由 三 部 分 组 成 : Hive 命 令 行 Server 
接口 CLI[、Client 和 WebUI， 其 中 最 常用 的 De- ce 
是 CLI。 ae; 

@@ 命令 行 接口 (CL) :CL 启动 的 时 候 er HIVE 
会 同时 启动 一 个 Hive 副 本 ，CIL 主 要 包括 如 下 
内 容 。 


@@ DDL ( 数据 描述 语言 ) 
生成 表 ( creat table ) ， 放 弃 表 ( drop 
table ) ， 表 改名 ( rename table ) ; 


QO http://p-x1984.iteye.com/blog/761376 图 5.1 ” Hive 体系 结构 
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变更 表 (altertable ) ， 增 加 列 ( add column ) ; 

增加 分 区 ( add Partitions ) 。 

@ Browsing (浏览 ) 

查看 所 有 表 ( show tables ) ; 

查看 表 结 构 ( describe table ) ; 

查询 ( Queries ) ; 

装载 数据 ( Loading Data ) 。 

©® Client 

Hive 的 客户 端 是 Client， 通 过 Client 可 以 连接 到 Hive Server ( 服务 端 ) 。 用 户 能 够 在 启动 
Client 模 式 的 时 候 ， 找 出 Server 所 在 的 节点 ， 同 时 还 需要 在 该 节点 启动 Server 应 用 。 用 户 可 以 通 
过 JDBC/ODBC 等 驱动 器 来 访问 Hive， 其 中 包括 以 下 几 项 。 

@ HiveJDBC Driver (Java ) 

@ Hive Add-in for Excel (by Microsoft ) 

@ Hive ODBC Driver (C++ ) 

@ Thrift (C/C++、Python、Perl、PHP 等 ) 

@®@ Web UI 

Web UI 是 指 通过 浏览 器 来 访问 Hive。 主 要 包括 以 下 两 方面 。 

@ MetaStore UI， 它 能 导航 和 浏览 系统 中 所 有 的 表 ， 并 且 可 以 给 所 有 表 和 所 有 列 做 注 

释 ， 也 能 抓 取 数据 间 的 依赖 关系 。 
@@ HiPal， 它 允许 用 户 通过 鼠标 点 击 的 方式 交互 地 构建 SQL 查询 ， 并 支持 投影 、 过 滤 、 
分 组 和 合并 功能 。 

(2 ) 元 数据 存储 ( MetaStore ) 

@ 存储 表 / 分 区 的 属性 

Hive 将 元 数据 存储 在 RDBMS， 如 MySQL、Derby 等 ,或 者 文本 文件 中 。Hive 中 的 元 数据 包 
括 表 、 序 列 化 和 反 序 列 化 SerDe 库 ， 表 的 属性 ( 是 否 为 外 部 表 等 ) ， 表 的 名 称 ， 表 的 列 和 分 区 
及 其 属性 ， 表 的 数据 所 在 HDFS 的 目录 等 信息 。 

® Thrift API 

当前 客户 机 的 PHP ( Web 接 口 ) 、Java ( 查询 引擎 和 CLI) 、Python ( 旧 的 CLI ) 、Perl 
(Tests ) 等 Thrift API。 

(3 ) 完成 HiveQL 查 询 的 解释 器 、 编 译 器 、 优 化 器 、 执 行 器 

解释 器 ( Parser ) 、 编 译 器 ( Compiler ) 、 优化 器 ( Optimizer ) 是 用 于 完成 Hive QL 查询 语 
句 ， 包 括 语法 分 析 、 词 法 分 析 、 编 译 、 优 化 和 查询 计划 的 生产 。 生 产 的 查询 计划 主要 存储 于 
HDFS 中 ， 接着 就 会 有 MapReduce 调 用 执行 器 ( Executor ) 来 执行 。 

(4) Hadoop 

Hive 的 所 有 数据 都 存储 于 HDFS， 大 多 数 的 查询 由 MapReduce 来 完成 计算 ( 该 查询 包括 * 
的 查询 ， 比 如 select * from tbl 就 不 会 生成 MapReduce 任 务 ) 。 
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2. Hive 的 数据 存储 

Hive 的 数据 存储 在 HDFS 中 ， 它 没有 指定 的 数据 存储 格式 ， 也 不 需要 像 传统 的 SQL 一 样 为 
数据 建立 索引 ， 用 户 能 极其 自由 地 组 织 Hive 中 的 表 ， 仅 仅 需要 在 创建 表 的 时 候 明 确 Hive 数 据 
中 的 行 与 列 分 隔 符 ，Hive 即 可 以 解析 数据 。 

Hive 中 包含 以 下 四 个 数据 模型 : 表 (Table ) 、 外 部 表 ( External Table ) 、 分 区 
(Partition ) 和 存储 桶 ( Bucket ) 。 

(1) 表 (Table) 

在 概念 理论 上 ，Hive 中 的 Table 与 数据 库 中 的 Table 是 相似 的 ， 所 有 的 Table 在 Hive 中 都 有 着 
相对 应 的 一 个 HDFS 中 的 目录 存储 数据 。 比 如 ， 一 个 表 tbs， 在 HDFS 中 它 的 路 径 是 /wh/tbs， 其 
中 ，wh 是 由 ${hive.metastore.warehouse.dir} 指 定 的 数据 仓库 的 目录 ， 除 了 External Table 外 ， 其 他 
全 部 的 Table 数 据 都 保存 在 该 目录 中 。 

Table 包 括 创建 过 程 以 及 数据 加 载 过 程 ( 这 两 个 过 程 都 可 以 在 同一 个 语句 中 完成 ) 。 在 数 
据 加 载 的 过 程 中 ， 实 际 数据 会 被 移动 至 数据 仓库 目录 中 ， 而 后 面 对 数 据 的 访问 就 会 在 数据 仓库 
目录 中 直接 完成 。 因 此 ， 在 删除 表 时 ， 表 中 所 有 的 数据 ( 包括 元 数据 ) 都 将 同时 会 被 删 掉 。 

(2 ) 分 区 (Partition ) 

Partition 与 数据 库 中 的 Partition 列 的 密集 索引 相对 应 ， 然 而 在 Hive 中 Partition 的 组 织 方 
式 与 在 数据 库 中 的 有 所 不 同 。 在 Hive 中 ， 表 中 的 一 个 Partition 与 表 下 的 一 个 目录 相对 应 ， 
每 个 Partition 的 数据 都 有 一 个 对 应 的 目录 。 比 如 : tbs 表 中 含有 两 个 Partition: ds 与 city， 那 么 
对 应 于 ds=20140801，city=US 的 HDFS 子 目录 为 : /wh/tbs/ds=20140801/city=US; 而 对 应 于 
ds=20140801，city=CA 的 HDFS 子 目录 为 ; /wh/tbs/ds=20140801/city=CA。 

(3 ) 存储 桶 ( Bucket ) 

Buckets 用 于 计算 指定 列 的 hash 值 ， 然 后 按照 hash 值 进行 数据 切 分 ， 达 到 并 行 的 目的 。 每 
一 个 Bucket 对 应 一 个 文件 。 比 如 ， 要 将 某 个 列 分 散 为 32 个 Bucket， 首 先 对 该 列 的 值 进行 hash 值 
计算 ,其 中 对 应 hash 值 是 0 的 HDFS 目 录 为 /wh/tbs/ds=20140801/city=US/part-00000; hash 值 是 20 
的 HDFS 目 录 为 /wh/tbs/ds=20140801/city=US/part-00020。 

(4) 外 部 表 ( External Table ) 

External Table 指 向 的 是 已 经 存在 的 HDFS 中 数据 ， 而 且 可 以 创建 分 区 和 表 。 它 和 Table 在 元 
数据 的 组 织 上 是 一 样 的 ， 但 在 实际 数据 的 存储 上 却 有 不 少 的 差异 。 

与 Table 相 对 比 ，External Table 仅 有 一 个 过 程 ， 加 载 数 据 和 创建 表 是 同时 进行 和 完成 的 
(CREATE EXTERNAL TABLE …… LOCATION ) ， 而 且 实际 数据 存储 在 LOCATION 后 面 指定 
的 HDFS 路 径 中 ， 并 不 会 移动 至 数据 仓库 目录 中 。 当 一 个 External Table 被 删除 时 ， 仅 仅 删除 元 
数据 ， 表 中 的 数据 不 会 真正 被 删除 。 

3. Hive QL 

Hive 定 义 了 简单 的 类 SQL 查询 语言 ， 称 为 Hive QL， 也 缩写 为 HQL。 由 于 SQL 在 数据 仓库 
中 应 用 的 很 广泛 ， 因 此 ,开发 者 专门 针对 Hive 的 特性 设计 了 类 SQL 的 查询 语言 HQL。 这 样 方 
便 了 熟悉 SQL 开发 和 MapReduce 的 开发 者 使 用 Hive 进 行 开 发 和 自 定义 来 处 理 复杂 的 分 析 工作 ， 
而 且 还 可 以 利用 HQL 进 行 用 户 查询 。 
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下 面 简单 介绍 Hive QL 的 一 般 查询 语句 的 基本 格式 。 

SELECT [ALL | DISTINCT] select expr, select expr, 
FROM table reference 
[WHERE where condition] 
[GROUP BY col list] 


[ 
CLUSTER BY col list | [DISTRIBUTE BY col list] 


[SORT BY col list] 
] 
[LIMIT number] 

其 中 ，SELECT 语 句 可 以 是 union 查 询 或 子 查询 的 一 部 分 。 选 用 ALL 或 者 DISTINCT 选 项 区 
分 的 目的 是 对 重复 记录 进行 处 理 ， 默 认 情况 是 ALL， 代 表 查 询 所 有 记录 ; DISTINCT 表 示 去 掉 
重复 的 记录 。table_reference 是 查询 的 输入 ， 输 入 方式 可 以 是 一 个 普通 table、 一 个 视图 、 一 个 
join 或 子 查询 。where condition 是 指 一 个 布尔 表达 式 ， 但 是 Hive 不 支持 在 WHERE 子 句 中 的 IN， 
EXIST 或 子 查询 。Limit 用 于 限制 查询 的 记录 数 。 查 询 结果 是 随机 选择 的 。 

注 : Hive 的 官方 文档 对 查询 语言 有 很 详细 的 描述 ， 具 体 请 参考 http://wiki.apache.org/ 
hadoop/Hive/LanguageManual 

Hive QL 常用 的 查询 操作 主要 包括 ANSI JOIN ( 只 有 equi-join ) 、 多 个 表 Insert、 多 个 表 的 
Group by 和 Sampling 等 。 其 中 ，Join 和 Group by 操作 的 说 明 如 下 。 


(1 ) Join 操 作 
Join 操 作 的 示意 图 如 图 5.2 所 示 。 
Page_view user pv_users 
pageid | Userid | time de | end pageid | age 
1 11 10:01 11 18 | female| = 1 18 
1 12 | 10:08 | | 
2 11 10:01 ed 2 | 18 
INSERT INTO TABLE pv users 
SELECT pv.pagied, U.age 
FROM Page_view pv JOIN User U ON (pv.user id=U.user id ) ; 


图 5.2 Join 操作 

例如 ， 通过 图 5.2 中 一 个 简单 的 语句 表示 一 个 3 列 的 表 Page_view (访问 网 页 id、 用 户 ID 和 
访问 时 间 ) 和 3 列 的 表 User ( 用 户 ID 、 年 龄 和 性 别 ) ， 通 过 相同 的 用 户 ID 执行 Join 的 操作 ， 形 
成 一 个 新 的 表 pv_users， 该 表 展 示 了 访问 页 面 的 用 户 年 龄 结构 。 

在 使 用 Join 操 作 的 查询 语句 时 要 注意 : 应 将 条 目 少 的 表 或 者 子 查询 放 在 Join 操 作 符 的 左 
边 。 由 于 在 Join 操 作 的 Reduce 阶 段 ，Join 操 作 符 左边 的 表 里 面 的 内 容 会 被 加 载 进 内 存 ， 因 此 ， 
将 条 目 或 者 子 查询 少 的 表 放 在 左边 ， 这 样 可 以 有 效 减 少 发 生 00M 错 误 的 几率 。 

(2) Group by 操作 
Group by 的 操作 如 图 5.3 所 示 。 
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pv_users 


> pageid_age_sum 
P gid pageid age count 
18 1 
18 
2 34 > 2 | 18 2 
2 18 1 | 24 1 
Hive QL: 


INSERT INTO TABLE pageid_age_sum 
SELECT pageid, age, count (1) 
FROM pv_users 

GROUP BY pageid, age; 


图 5.3 ”Group by 操作 


5.1.2 Hive 的 优化 和 升级 


Facebook 在 2007 年 提出 Apache Hive 和 Hive QL 后 ， 它 们 就 成 为 事实 上 的 Hadoop 上 的 SQL 接 
口 。 如 今 ， 各 种 类 型 的 公司 都 在 使 用 Hive 来 访问 Hadoop 数 据 ， 和 希望 给 公司 或 者 用 户 带 来 更 多 
的 价值 。 此 外 ， 还 有 许多 的 公司 利用 大 量 的 BI 工具 来 达到 同样 的 目的 ， 这些 BI 工具 也 是 使 用 
Hive 作 为 接口 。 因 此 ，Hive 主 要 用 于 建立 大 规模 的 批 计算 ， 这 在 数据 报告 、 数 据 挖掘 以 及 数 
据 准 备 等 应 用 场合 十 分 有 效 。 但 是 随 着 Hadoop 的 需求 越 来 越 广阔 ， 企 业 用 户 也 越 来 越 需要 
Hadoop 具 备 更 高 的 实时 性 和 交互 性 。 

目前 Hive 还 存在 很 多 不 足 ， 特 别 是 在 查询 速度 方面 有 着 “先天 性 不 足 ”。 在 查询 过 程 
中 ， 面 对 一 个 完整 的 数据 集 可 能 要 花费 几 分 钟 到 几 个 小 时 ， 这 是 完全 不 切实 际 的 。 对 于 主流 
用 户 而 言 ， 也 很 难 有 大 的 吸引 力 。 

Hive 的 优化 和 升级 是 很 多 IT 企 业 的 一 项 重要 工作 ， 其 中 主要 的 项 目 包括 Stinger Initiative 和 
Presto 等 。 


1. Stinger 


Stinger 是 Hortonworks 开 源 的 一 个 类 SQL 的 即时 查询 系统 ， 是 对 Hive 进 行 优化 的 项 目 。 
Hortonworks 声 称 较 Hive 可 以 提升 100 倍 的 速度 。 它 主要 的 改进 如 下 。 

(1 ) 库 优化 : 智能 优化 器 

@ 生成 简化 的 有 向 无 环 图 。 

@ 引入 in-memory-hash-join， 适 用 于 有 一 方 适 合 在 内 存 中 的 Join。 这 是 一 个 全 新 的 in 一 
memory 一 hash 一 join 算 法 ， 借 此 算法 Hive 可 以 把 小 表 读 到 哈 希 表 中 ， 可 以 遍历 大 文件 来 
产生 输出 。 

®@ 引 入 sort—merge—bucket—join, 适用 于 表 在 同样 的 关键 词 上 被 分 为 bucket 的 情形 ， 在 速 
度 改 进 方面 是 巨大 的 。 

@ 减少 在 内 存 中 的 事实 表 的 足迹 。 

@@ 让 优化 器 自 动 挑选 map joins。 

(2 ) 多 维度 的 结构 化 数据 

在 Hive 中 采用 企业 级 数据 仓库 (EDW ) 中 很 普通 的 维度 模式 ， 产 生 大 的 数据 表 和 小 的 维 

度 表 。 维 度 表 经 常 小 到 能 适合 RAM， 有 时 被 称 为 Star Schema。 
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(3 ) 优化 的 列 存储 ( ORCFile ) 

优化 的 列 存储 包括 如 下 内 容 。 

@ 生成 一 个 更 好 的 列 存储 文件 ， 与 Hive 数 据 模型 紧密 一 致 。 
@ 把 复杂 的 行 类 型 分 解 为 原始 类 型 ， 便 于 更 好 地 压缩 和 投影 。 


对 于 必需 的 列 ， 从 HDFS 中 只 读 bytes。 

既 储存 文件 也 储存 文件 的 每 个 节 。 

增加 了 聚合 函数 ， 如 min、max、sum、average 和 count 等 。 
允许 通过 排序 列 快速 访问 ， 能 够 快速 校 验 一 个 值 是 否 存 在 。 


(4 ) 深度 分 析 能 力 

支持 SQL: 2003 Window Functions。 

其 OVER 子 句 支持 Multiple PARTITION BY 和 ORDER BY; 支持 Windowing (ROWS 
PRECEDING/FOLLOWING ) ; 支持 大 量 的 聚合 ， 如 RANK、FIRST_VALUE、LAST_VALUE、 
LEAD/LAG 、Distrubutions 等 。 

(5 ) 与 Hive 数 据 类 型 的 一 致 性 

数据 类 型 的 优化 包括 如 下 内 容 。 


增加 了 固 点 NUMERIC 和 DECIMAL 类 型 。 

增加 了 有 限 域 大 小 的 VARCHAR 和 CHAR 类 型 。 

增加 了 DATETIME。 

对 FLOAT 增 加 大 小 从 1 ~ 53。 

增加 了 考虑 兼容 性 的 同 义 字 ， 对 应 BINARY 的 BLOB， 对 应 STRING 的 TEXT， 对 应 
FLOAT 的 REAL。 

增加 了 SQL 语义 ， 如 更 多 地 用 IN、NOT IN、HAVING 的 子 查询 ，EXISTS 和 NOT 
EXISTS 等 。 


(6 ) 架构 的 优化 
Stinger 架 构 与 Hive 不 同 的 是 ，Stinger 采 用 Tez。 所 以 ，Hive 是 SQL on Map-Reduce， 而 
Stinger 是 Hive on Tez。Tez 的 一 个 重要 作用 是 优化 Hive 和 PIG 这 种 典型 的 DAG 应 用 场景 ， 它 通 


过 减少 数据 读 写 IO 操 作 ， 优 化 了 DAG 流 程 ， 


Command-line shell ThrifyODBC/JDBC 
使 得 Hive 的 速度 提高 了 很 多 倍 。 其 架构 如 图 5.4 
所 示 。Stinger 是 在 Hive 的 现 有 基础 上 加 了 一 个 站 
优化 层 Tez ( 此 框架 基于 Yarn ) ， 所 有 的 查询 SOQL pasadOpiimiaatondsa 站 
和 统计 都 要 经 过 它 的 优化 层 来 处 理 ， 以 减少 | We | 
不 必要 的 工作 以 及 资源 开销 。 虽 然 Stinger 也 对 | Store 


Hive 进 行 了 较 多 的 优化 与 加 强 ， Stinger 的 总 体 
性 能 还 是 依赖 于 其 子 系统 Tez 的 表现 。 而 Tez 是 


理解 为 Coogle Pregel 的 开源 实现 ， 该 框架 可 以 


[| Te | 
[| wis | 
Hortonworks 开 源 的 一 个 DAG 计 算 框 架 ，Tez 可 以 | OptimizedRowColumnar | 


像 Map-Reduce 一 样 ， 用 来 设计 DAG 应 用 程序 ， 图 5.4 ”Stinger 架 构 
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但 需要 注意 的 是 ，Tez 只 能 运行 在 YARN 上 。 


2. Presto 

2013 年 11 月 Facebook 开 源 了 一 个 分 布 「 Presto Command_line shell Thrif/JDBC 
式 SQL 查 询 引 擎 Presto， 它 专门 用 来 进行 快 a 
速 、 实 时 的 数据 分 析 。Presto 支 持 标 准 的 Hive Query Parser/Analyzer 
ANSI SQL 子 集 ， 包 括 复杂 查询 、 聚 合 、 连 Metastore Query Planner 
接 和 窗口 函数 。 其 简化 的 架构 如 图 5.5 所 Query Scheduler 


示 ， 客 户 端 将 SQL 查 询 发 送 到 Presto 的 协调 三 一 下 一 一 
器 ,协调 器 会 对 SQL 查询 进行 语法 检查 、 分 中 天天 
析 和 规划 查询 计划 。 调 度 器 将 执行 的 管道 组 加 
合 在 一 起 ， 将 任务 分 配给 那些 离 数据 最 近 的 节点 ， 然 后 监控 执行 过 程 。 客 户 端 从 输出 段 中 将 
数据 取出 ， 这 些 数据 来 源 于 更 底层 的 处 理 段 中 。 因 此 ， 使 用 Presto 进 行 简单 查询 仅仅 需要 几 百 
毫秒 ， 即 使 是 复杂 的 查询 ， 也 只 需要 几 分 钟 就 可 以 完成 。 

Presto 的 运行 模型 与 Hive 有 着 本 质 的 区 别 。Hive 是 将 查询 转换 成 多 阶段 的 Map-Reduce 任 
务 ， 依 次 运行 。 每 一 个 任务 在 磁盘 上 读 取 输入 数据 并 且 将 中 间 结 果 输 出 到 磁盘 上 。 然 而 Presto 
引擎 没有 使 用 Map-Reduce， 它 使 用 了 一 个 定制 的 查询 执行 引擎 和 响应 操作 符 来 支持 SQL 语 
法 。 除 了 改进 的 调度 算法 之 外 ， 所 有 的 数据 处 理 都 是 在 内 存 中 进行 的 。 不 同 的 处 理 端 通过 网 
络 组 成 处 理 的 流水 线 。 这 样 可 避免 不 必要 的 磁盘 读 写 和 额外 的 延迟 。 这 种 流水 线 式 的 执行 模 
型 会 在 同一 时 间 运 行 多 个 数据 处 理 段 ， 一 旦 数据 可 用 的 时 候 就 会 将 数据 从 一 个 处 理 段 传人 到 
下 一 个 处 理 段 。 这 种 方式 会 大 大 减少 各 种 查询 的 端 到 端的 响应 时 间 。 此 外 ，Presto 设 计 了 一 个 
简单 的 数据 存储 抽象 层 ， 来 满足 在 不 同 数据 存储 系统 上 都 可 以 用 SQL 进 行 查询 的 需要 。 存 储 
连接 器 目前 除 支 持 Hive/HDFS 外 ， 还 支持 HBase 、Seribe 和 定制 开发 的 系统 。 

但 是 在 功能 上 ，Presto 与 Hive 有 点 差别 ， 也 可 以 说 是 Presto 功 能 较 不 完善 ， 毕 竟 Presto 推 出 
时 间 不 长 ， 这 些 差别 可 以 概括 为 : 

(1 ) Presto 完 全 没有 数据 写 和 功能， 不 能 使 用 create 语 句 创建 表 ， ( 可 通过 CREATE 
TABLE tablename AS query ) 建立 视图 、 导 入 数据 。 

(2 ) Presto 不 支持 UDF ( 用 户 自 定 义 函 数 ) 。 

(3 ) Presto 支 持 窗口 函数 ， 但 数量 与 Hive 比 相对 较 少 。 


5.1.3 ”实时 交互 式 SQL 查 询 

数据 库 进 行 实时 交互 SQL 查询 。 

1.Impala 

Impala 是 Cloudera 在 受到 Google 的 Dremel 启 发 下 开发 的 实时 交互 式 SQL 大 数据 查询 工具 ， 
根据 其 官网 的 产品 实测 表明 Impala 的 查询 速度 比 原来 的 Hive QL 提 升 3 ~ 90 倍 。 Impala 属 于 交互 
式 的 SQL 查询 ， 比 SQL 的 查询 功能 更 胜 一 筹 ， 它 可 以 看 成 是 Google Dremel 架 构 和 MPP (Massively 
Parallel Processing) 结 构 的 结合 体 ， 主 要 是 为 了 在 Hadoop 上 进行 低 时 延 的 SQL 查询 而 专门 设计 
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的 。 它 不 仅 采 用 接近 ANSI-92 标 准 的 Hive QL 来 执行 查询 ， 而 且 具 有 对 Hadoop 应 用 兼容 的 SQL 
接口 。Impala 通 过 使 用 与 商用 并 行 关系 数据 库 中 类 似 的 分 布 式 查 询 引 擎 ， 代 替 了 使 用 较 缓慢 
的 Hive+MapReduce 的 批 处 理 方式 。 

Impala 架 构 如 图 $.6 所 示 。Impala 采 用 的 接口 主要 是 Hive QL 和 JDBC/ODBC 等 ， 具 有 全 局 统 
一 的 元 数据 存储 和 调度 ， 查 询 则 是 完全 的 分 布 式 并 行 处 理 ， 对 HDFS 或 者 HBase 直 接 在 本 地 读 
取 。 Impala 分 布 式 查询 引擎 主要 包括 Query Planner 、Query Coordinator 和 Query Exec Engine 三 部 
分 ，Query Planner 接 收 来 自 SQL APP 和 0ODBC 的 查询 ， 然 后 将 查询 转换 为 若干 个 子 查 询 ; Query 
Coordinator 将 这 些 子 查询 分 发 到 各 个 节点 上 ; 由 各 个 节点 上 的 Query Exec Engine 负 责 子 查 询 的 
执行 ,最 后 返回 子 查询 的 结果 ， 这些 中 间 结 果 经 过 聚集 之 后 最 终 返 回 给 用 户 。 


图 5.6 Impala 架 构 


Impala 可 以 从 HDFS 或 HBase 中 通过 Select、Join 和 统计 函数 等 方法 查询 数据 ， 从 而 大 大 提 
高 了 效率 。 由 于 直接 在 HDFS 或 者 HBase 存 储 和 元 数据 上 做 查询 ， 使 得 它 具 有 Hadoop 的 灵活 
性 、 横 向 扩充 性 和 低 成 本 优势 ， 而 且 不 需要 数据 和 元 数据 的 复制 或 同步 ， 这 样 的 本 地 处 理 有 
效 地 避免 了 网 络 瓶 颈 。 

Impala 主 要 由 Impalad 、State Store 和 CLI 三 部 分 组 成 。Impalad 与 DataNode 运 行 在 同一 节 
点 上 ，Impalad 是 每 个 节点 上 处 理 数据 的 基本 单元 ， 由 Impalad 进 程 表示 ， 它 接收 客户 端的 查 
询 请 求 ( 接收 查询 请 求 的 Impalad 为 Coordinator， Coordinator 通 过 JNI 调 用 Java 前 端 解 释 SQL 查 
询 语句 ， 生 成 查询 计划 树 ， 再 通过 调度 器 把 执行 计划 分 发 给 具有 相应 数据 的 其 他 Impalad 来 
执行 ) ， 读 写 数据 ， 并 行 地 执行 查询 ， 之 后 把 结果 通过 网 络 的 流 式 传送 回 给 Coordinator， 由 
Coordinator 返 回 给 客户 端 。 同时 Impalad 也 与 State Store 一 直 保 持 连接 ， 用 于 确定 哪个 Impalad 是 
健康 的 并 且 可 以 接受 新 的 工作 。 

Impala 的 另 一 个 核心 组 件 State Store 负 责 检测 整个 集群 中 所 有 节点 上 的 进程 的 健康 度 。 
State Store 通 过 连续 不 断 的 分 发 findings 到 每 一 个 节点 上 的 进程 。 State Store 的 物理 进程 名 称 为 
statestored ， 在 一 个 Impala 集 群 中 仅 需 要 一 个 这 样 的 进程 。 如 果 Impala 集 群 中 有 一 个 节点 因为 
硬件 故障 、 网 络 错误 、 软 件 问题 或 是 别 的 原因 导致 该 节点 不 可 用 ， 则 State Store 通 知 所 有 在 集 
群 中 的 其 他 正常 的 节点 ， 以 便 在 新 任务 提交 的 时 候 可 以 避免 将 新 任务 分 发 到 该 故障 节点 上 。 
由 于 State Store 的 应 用 场合 是 在 集群 发 生 故 障 的 时 候 通 知 集群 中 其 他 的 节点 ,来 避免 在 新 的 任 
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务 到 来 时 把 任务 发 送 到 故障 节点 上 ， 因 此 State Store 不 是 关键 的 操作 。 如 果 State Store 没 有 运行 
或 是 连接 不 上 ， 其 他 的 节点 仍 可 以 继续 运行 分 布 式 的 分 发 和 处 理 任 务 ， 结 果 就 是 集群 的 鲁 棒 
性 上 受到 一 些 影响 。 当 State Store 恢 复 的 时 候 会 继续 和 其 他 的 节点 通信 然后 恢复 其 监控 函数 。 

CLI 提 供给 用 户 查 询 使 用 的 命令 行 工具 ， 同 时 Impala 还 提供 了 Hue、JDBC、ODBC 和 Thrift 
使 用 接口 。 

2. Drill 

大 数据 查询 并 不 是 单一 的 交互 式 查询 ， 大 多 数 查询 都 是 很 缓慢 而 且 非 交互 式 的 。 为 了 解 
决 这 一 问题 谷歌 研发 了 Dremel， 它 能 以 极 快 的 速度 处 理 大 规模 的 海量 数据 。 根 据 谷歌 的 研究 
报告 显示 ，Dremel 只 需 几 秒 就 可 以 完成 PB 数量 级 的 查询 ， 而 Drill 就 是 其 对 应 的 Apache 开 源 版 
本 。Drill 是 一 个 专门 用 于 互动 分 析 大 型 数据 集 的 分 布 式 系统 ， 它 采用 标准 的 SQL 语 句 来 进行 
大 数据 的 互动 分 析 ， 客 户 端 可 通过 任何 一 个 SQL 工 具 输 入 SQL 语 句 ; 通过 Drill 的 ODBC 驱 动 器 
连接 到 Dril 的 驱动 ， 并 经 过 SQL 查询 的 Parser 进 行 解 析 ; 经 过 Query Planner 进 行 计划 ， 在 节点 
的 Drilbit 上 来 执行 。 多 个 Drilbit 共 同 完成 大 规模 的 查询 任务 ， 体 现 出 Drill 具 有 查询 快 、 开 放 性 
和 现代 化 等 特点 


5.1.4 基于 PostgreSQL 的 SQL on Hadoop 


Hadapt、EMC Greenplum HAWQ 和 Citus Data 都 是 基于 PostgreSQL 的 解决 方案 。 其 中 H 
是 专注 于 SQL on Hadoop 的 厂商 。Hadapt 是 一 个 自 适应 分 析 平 台 ， 具 有 健壮 性 、 可 伸缩 性 等 特 
点 ， 为 Apache Hadoop 开 源 项 目 带 来 了 SQL 实现 。 将 数据 在 两 种 计算 框架 中 分 别 存放 是 Hadapt 
解决 方案 的 本 质 ， 如 图 5.7 所 示 。 结 构 化 数据 存储 于 高 性 能 关系 型 数据 库 中 ， 非 结构 化 数据 存 
储 于 Hadoop 分 布 文件 系统 ， 对 两 种 类 型 的 数据 交互 依靠 查询 的 切片 来 执行 ， 通过 它 合 并 了 关 
联 数据 存储 的 混合 存储 层 。 


.SQL 
* MapReduce 
* ODBC/JDBC 


* Advanced SQL Analytic Functions 


* Interactive Query Processing 


* Query Fault Tolerance & Load Balancing 
* Optimized for the Cloud 
* Patent~—Pending Split Query Execution Technology 


* High-Performance Relational Engine for Structured Data 
* Hadoop Distributed Fite System for Unstructured Data 


图 5.7 ”Hadapt 的 体系 架构 
Hadapt 人 允许 进行 基于 SQL 大 数据 集 的 交互 分 析 -。 通过 Hadapt 交 互 式 的 查询 ， 可 以 自 定义 分 
析 的 Hadapt Development Kit™ ( HDK ) 和 Tableau 软 件 集成 ，Hadapt 2.0 成 为 Hadoop 工 业 上 第 一 
个 交互 式 应 用 程序 。 
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Hadapt 结 合 了 Hadoop 和 关系 数据 库 管理 软件 的 优点 ， 成 为 一 个 单独 的 数据 平台 。Hadapt 
统一 了 关系 数据 库 环 境 和 Hadoop 环 境 ， 可 以 在 Hadoop 层 和 关系 数据 库 层 之 间 自 动 划分 查询 执 
行 任务 ,使 得 它 具 有 一 体 化 的 分 析 环 境 ， 这样 不 仅 可 以 对 Hadoop 里 的 数据 执行 分 析 操 作 ， 还 
能 对 SQL 环境 中 传统 的 结构 化 数据 进行 分 析 ， 并 充分 利用 了 Hadoop 的 可 扩展 性 和 关系 数据 库 
技术 的 高 速度 。Hadapt 公 司 表示 ，Hadapt 通 常 采用 的 方法 是 使 用 由 扩充 型 连接 件 联系 起 来 的 
两 个 不 同系 统 ， 但 是 这 带 来 了 延迟 ， 导 致 这 种 方法 显得 很 孤立 。 而 Hadapt 的 平台 设计 成 了 可 
以 在 私有 云 或 公共 云 环 境 上 运行 ， 具 有 在 同一 个 环境 中 就 能 访问 所 有 数据 的 优点 。 在 Hadapt 
中 除了 MapReduce 流 程 和 大 数据 分 析 工 具 外 ， 现 有 的 基于 SQL 的 工具 也 可 以 使 用 。 


有 5.2 数据 分 析 的 方法 与 技术 


20 世 纪 初 期 ， 进 行 数据 分 析 是 一 件 非常 困难 的 事情 。 如 果 要 对 某 一 问题 进行 深入 的 分 
析 ， 例 如 ， 建 立 模型 ， 实 现 预测 功能 ， 则 完全 需要 依靠 人 们 手工 进行 各 种 统计 运算 。 因 此 ， 
那个 时 代 几 乎 没有 人 拥有 可 扩展 的 数据 分 析 能 力 。 数 十 年 过 去 了 ， 现 在 人 们 处 理 数据 的 规模 
已 经 远 远 超过 手工 处 理 时 代 的 数据 规模 ， 因 此 ， 手 工 进行 数据 分 析 计算 已 经 完全 无 法 满足 时 
代 的 需求 了 。 计 算 机 技术 的 发 展 有 效 地 解决 了 这 一 难题 ， 随 着 数据 规模 的 迅速 扩大 ， 计 算 机 
处 理 数据 的 能 力也 在 不 断 增强 ， 人 们 已 经 从 手工 时 代 进 入 为 半自动 化 (有 的 已 经 达到 自动 
化 ) 时 代 了 。 目 前 ， 社 交 网 站 、 电 子 商 务 等 网 络 服务 的 快速 发 展 ， 使 得 网 络 服务 与 网 络 信息 
规模 呈 裂 变 式 增长 ， 这 样 大 规模 的 数据 也 给 计算 机 与 数据 分 析 带 来 了 巨大 的 挑战 。 面 对 这 个 
巨大 的 挑战 ， 很 多 IT 厂 商 在 不 断 地 找寻 解决 方案 ， 人 们 把 这 个 时 代 定 义 为 大 数据 时 代 。 

众所周知 ， 大 数据 不 单 是 数据 量 大 的 事情 ， 最 重要 的 是 怎么 利用 好 这 些 大 数据 ， 也 就 是 
对 大 数据 进行 分 析 ， 只 有 通过 分 析 这 些 数据 才能 获取 更 多 智能 的 、 深 入 的 、 有 价值 的 信息 。 
现在 越 来 越 多 的 行业 应 用 涉及 到 了 大 数据 ， 例 如 人 金融、 零售 业 、 医 疗 、 电 信 、 航 空 等 。 这 些 
行业 应 用 不 断 地 产生 大 量 数据 ， 而 这 些 数据 的 属性 ， 包 括 数量 ， 速 度 ， 多 样 性 、 复 杂 性 等 都 
在 呈现 不 断 增长 的 复杂 性 ， 所 以 大 数据 的 分 析 方 法 在 大 数据 领域 就 显得 尤为 重要 ， 可 以 说 是 
决定 最 终 信息 是 否 有 价值 的 决定 性 因素 。 基 于 此 ， 数 据 分 析 普 遍 存 在 的 方法 理论 有 哪些 呢 ? 

数据 分 析 是 指 采 用 准确 适宜 的 分 析 方法 和 工具 来 分 析 经 过 处 理 的 数据 ， 提 取 有 价值 的 
信息 ， 从 而 形成 有 效 的 结论 并 通过 可 视 化 技术 展现 出 来 的 过 程 。 因 此 ， 要 学 习 数 据 分 析 必 须 
首先 需 清楚 数据 分 析 与 数据 展现 的 方法 以 及 对 数据 分 析 工 具 的 使 用 。 数 据 分 析 的 方法 大 致 可 
以 分 为 三 种 : 基本 分 析 方 法 ， 该 类 方法 主要 以 基础 的 统计 分 析 为 主 ; 高 级 分 析 方 法 ， 以 计 
量 经 济 建 模 理论 为 主 ; 数据 挖 气 类， 以 数据 仓库 、 机 器 学 习 等 复合 技术 为 主 ?。 数 据 仓库 技 
术 前 面 已 经 讲 到 ， 数 据 分 析 最 重要 的 领域 一 一 数据 挖掘 技术 在 后 面 章 节 会 着 重 介绍 ， 本 节 主 
要 介绍 基本 分 析 方 法 和 高 级 分 析 方 法 。 数 据 展 现 主 要 是 指 通过 数据 可 视 化 技术 把 数据 转换 
成 图 形 或 图 像 在 屏幕 上 显示 出 来 。 现 在 普遍 使 用 的 数据 分 析 工 具 包 括 : Excel、SPSS、SAS、 
Eviews、R 语 言 、MATLAB、Stata 和 Weka 等 ， 具 体 的 应 用 工具 软件 会 在 5.3 节 中 详细 介绍 。 本 
节 主 要 介绍 数据 分 析 的 方法 以 及 可 视 化 技术 。 


® http://wenku.baidu.com/view/e42e03679b6648d7c0c74604.html. 
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5.2.1 基本 分 析 方 法 


目前 ,数据 分 析 方 法 中 常见 的 基本 分 析 方 法 包括 对 比分 析 、 趋 势 分 析 、 差 异 显著 性 检 
验 、 分 组 分 析 法 、 结 构 分 析 、 因 素 分 析 法 、 交 叉 分 析 法 、 综 合 评价 分 析 、 漏 斗 图 分 析 法 等 。 


1. 对 比分 析 


对 比分 析 也 称 为 比较 分 析 ， 该 方法 通过 对 客观 事物 进行 对 比 ， 从 而 认识 事物 的 本 质 以 
及 挖掘 事物 的 规律 并 且 给 出 准确 的 评价 。 对 比分 析 的 分 析 对 象 一 般 为 相互 联系 的 两 个 指标 数 
据 ， 它 主要 展示 与 说 明 研 究 对 象 水 平 的 高 低 、 速 度 的 快慢 、 规 模 的 大 小 以 及 各 关系 之 间 是 否 
协调 。 

对 比分 析 的 分 类 分 为 : 横向 对 比 、 纵 向 对 比 、 标 准 对 比 以 及 实际 与 计划 对 比 。 横 向 对 
比 是 指 同一 时 间 条 件 下 不 同 总 体 指 标 比较 ， 如 不 同 公司 、 不 同 地 区 、 不 同 国家 的 比较 ， 也 叫 
静态 对 比 。 纵 向 对 比 是 指 同一 总 体 条 件 不 同时 间 指 标 数值 的 比较 ， 也 叫 动态 对 比 。 这 两 种 方 
法 既 可 单独 使 用 ， 也 可 结合 使 用 。 进 行 对 比分 析 时 ， 可 以 使 用 的 指标 包括 总 量 指标 、 相 对 指 
标 、 平 均 指标 ， 这 些 指标 可 以 单独 使 用 也 可 结合 起 来 使 用 。 分 析 比 较 的 结果 可 用 相对 数 ， 如 
百分数 、 倍 数 、 系 数 等 来 反映 ; 也 可 用 相差 的 绝对 数 和 相关 的 百分比 来 表示 ， 即 将 对 比 的 指 
标 相 减 。 标 准 对 比 是 指 实际 指标 与 标准 水 平 进行 对 比 ， 了 解 当前 的 指标 和 标准 指标 的 差异 ， 
此 处 标准 水 平 是 根据 由 经 验 或 理论 得 出 来 的 。 实 际 与 计划 对 比 是 反映 实际 与 目标 值 的 差异 ， 
主要 是 利用 当前 实际 值 与 目标 的 计划 数 、 预 算数 、 指 标 数 等 对 比 从 而 得 到 差异 。 

对 比分 析 在 了 解 财政 收 支 数据 特征 方面 很 有 优势 ， 同 时 该 方法 还 可 以 用 于 差异 分 析 ， 
在 对 比 时 ， 不 仅 可 以 使 用 单 指标 ， 还 可 以 使 用 多 指标 进行 综合 评价 ?。 值 得 注意 的 是 ， 合 适 
的 对 比 标准 是 成 功 的 关键 ， 因 此 在 选择 对 比 的 对 象 时 需要 根据 分 析 的 目的 选择 合适 的 对 比 标 
准 ， 使 得 指标 上 具有 可 比 性 。 

2. 趋势 分 析 


趋势 分 析 是 指 将 实际 达到 的 结果 ， 通 过 比较 同类 指标 不 同时 期 的 数据 ， 继 而 明确 该 指标 
的 变化 趋势 以 及 变化 规律 的 一 种 分 析 方法 。 趋 势 分 析 主 要 是 运用 在 财务 分 析 方 面 ， 具 体 的 分 
析 方 法 包括 定 比 和 环比 两 种 方法 。 

定 比 分 析 是 报告 分 析 期 的 水 平 比 上 某 一 特定 时 期 的 水 平 ， 它 阐释 的 是 该 现象 在 不 短 的 一 
段 时 期 内 总 的 变化 水 平 8。 在 实际 工作 中 ， 该 方法 主要 用 于 分 析 年 度 发 展 变化 的 速度 情况 。 
其 中 分 析 的 重要 的 指标 是 定 基 动态 比率 ， 该 计算 公式 为 : 定 基 动态 比率 = 分 析 期 数值 = 固定 
基期 数值 。 

环比 分 析 指 的 是 报告 分 析 期 水 平 比 上 前 一 时 段 水 平 ， 表 示 是 逐 期 变化 趋势 的 现象 ， 然 后 
通过 本 期 数据 与 上 期 数据 的 对 比 ， 形 成 时 间 序 列 图 。 环 比分 析 能 够 反映 逐 期 的 变化 情况 ,但 
会 受 很 多 因素 的 影响 ， 其 中 最 主要 的 是 季节 影响 ， 这 时 就 会 出 现 大 幅度 波动 ， 不 能 真实 反映 
变化 趋势 。 因 此 ， 环 比分 析 适 用 于 没有 季节 因素 的 时 间 序 列 数据 。 环 比分 析 中 重要 的 指标 是 
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环比 动态 比率 ， 该 比率 是 通过 分 析 期 和 它 的 前 期 数值 相 除 计算 出 来 的 比率 ， 其 计算 公式 是 : 
环比 动态 比率 = 分 析 期 数值 = 前 期 数值 。 
3. 显著 性 检验 


差异 显著 性 检验 ( Significance Test ) 是 指 事先 对 总 体 ( 随机 变量 ) 的 参数 或 者 总 体 分 布 
形式 做 一 个 假设 , 然后 利用 样本 信息 来 判断 该 假设 ( 原 假设 ) 是 否 合理 ， 即 判断 总 体 的 原 假 
设 与 真实 情况 是 否 存在 显著 性 差异 。 或 者 说 ， 显 著 性 检验 是 判断 样本 与 对 总 体 所 做 的 假设 之 
间 的 差异 是 属于 机 会 变异 ， 还 是 由 所 做 的 假设 与 总 体 真 实情 况 之 间 不 一 致 而 产生 的 差异 。 因 
此 ， 显 著 性 检验 是 对 总 体 所 做 的 假设 是 否 合理 正确 所 进行 的 检验 ， 其 原理 是 用 “小 概率 事件 
实际 不 可 能 性 原理 ”来 接受 或 否定 假设 。 

常用 的 检验 方法 包括 : 1 检验 、 方 差分 析 、k 检 验 、 零 反应 检验 等 ， 本 童 主要 介绍 /检验 和 
方差 分 析 。 

(1) 检验 

1 检验 是 通过 1 分 布 理 论 来 推断 差异 发 生 的 概率 ， 继 而 比较 两 个 平均 数 之 间 是 否 存在 显著 
差异 。 它 与 2 检验、 卡 方 检验 并 列 。 奏 验 的 类 型 主要 包括 : 单 样本 /检验 、 独 立 样本 检验 、 配 
对 样本 /检验 。 

GD 单个 样本 的 /检验 

单个 样本 检验 是 检验 一 个 样本 平均 数 和 已 知 的 总 体 平 均 数 是 否 存在 显著 差异 。 

目的 : 比较 代表 未 知 总 体 平均 数 的 样本 平均 数 w 和 已 知 总 体 均 数 wo。 

计算 公式 如 下 。 

些 计 量 :4 全息， 自由 度 : v=n-1 (5-1) 

说 明 : jp: 为 样本 平均 数 ; ju 为 总 体 平均 数 ; s 为 样本 标准 差 ; "为 样本 容量 。 

适用 条 件 : 一 个 总 体 均 数 是 已 知 的 ， 能 够 得 到 一 个 样本 均 数 和 该 样本 标准 差 .样本 来 自 
正 态 分 布 或 近似 正 态 分 布 总 体 。 

@ 配 对 样本 {检验 

配对 样本 /检验 用 于 检验 两 个 相关 样本 或 成 对 样本 所 得 均值 间 的 差异 是 否 有 统计 搜索 学 意 
义 , 但 在 检验 之 前 必须 先 对 样本 进行 配对 设计 ， 将 受 试 对 象 的 某 些 重 要 特征 按照 相近 的 原则 
配 成 对 ， 其 目的 是 为 了 消除 混杂 因素 的 影响 。 观 察 对 象 之 间 除了 处 理 因素 和 研究 因素 之 外 ， 
其 他 因素 基本 相同 ， 每 对 中 的 两 个 个 体 随机 给 予 两 种 处 理 。 配 对 样本 兴 验 包括 两 种 情形 ， 一 是 
同 源 配对 ， 即 同一 受 试 对 象 或 同一 样本 分 为 两 个 部 分 分别 接受 两 种 不 同 的 处 理 后 进行 对 比 ， 
目的 是 判断 不 同 的 处 理 是 否 有 差别 ; 二 是 自身 配对 ， 某 种 同 质 对 象 分 别 接受 两 种 不 同 的 处 理 ， 
或 者 某 种 同 质 对 象 接受 处 理 前 后 是 否 有 差异 ， 即 对 同一 受 试 对 象 在 处 理 前 后 的 结果 进行 比较 。 


四 
计算 公式 : = 一 /而 


自由 度 : v=n-1 (5-2) 
说 明 : q， 差 值 的 样本 平均 数 ; ss， 差 值 的 标准 差 ; n 为 对 子 数 。 
适用 条 件 : 两 个 样本 是 配对 的 ， 而 且 样 本 所 在 的 总 体 符合 正 态 分 布 。 
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(2 ) 方差 分 析 
方差 分 析 ( Analysis of Variance， 简称 ANOVA ) ， 又 称 “ 天 检验 ”或 “变异 数 分 析 ”， 
是 通过 比较 总 体 方差 各 种 估计 间 的 差异 ， 来 检验 方差 的 正 态 总 体 是 否 有 相同 的 均值 。 方 差分 
析 是 用 于 两 个 或 两 个 以 上 样本 均 数 差别 的 显著 性 检验 ， 其 本 质 主要 是 通过 分 析 研 究 变 量 之 间 
的 关系 ,不 同 来 源 的 变异 对 总 体 变 异 的 贡献 大 小 ， 从 而 确定 可 控 因素 对 研究 结果 影响 力 的 大 
小 。 方差 分析 主要 包括 单 因素 方差 分 析 和 多 因素 方差 分 析 。 
方差 分 析 的 基本 步骤 如 下 : 
(1 ) 建立 检验 假设 ; 防 : 多 个 样本 总 体 均 数 相等 ; 
五 : 多 个 样本 总 体 均 数 不 相等 或 不 全 等 ; 
其 检验 标准 为 0.05; 
(2 ) 计算 检验 统计 量 F 值 ; 
(3 ) 确定 P 值 并 作出 推断 结果 。 
方差 分 析 是 研究 分 类 性 自 变量 对 数值 型 因 变量 的 影响 ， 通 过 显著 性 来 确定 变量 之 间 是 否 
有 关系 ， 以 及 关系 强度 如 何 。 方 差分 析 广 泛 应 用 于 农业 、 商 业 、 医 学 、 经 济 学 等 方面 。 
4. 分 组 分 析 


分 组 分 析 法 是 指 通过 统计 分 组 的 计算 和 分 析 ， 来 认识 所 要 分 析 对 象 的 不 同 特征 ， 不 同性 
质 以 及 相互 关系 的 方法 。 

分 组 的 方法 主要 是 根据 研究 的 目的 和 客观 现象 的 内 在 特点 ， 按 照 某 个 标志 或 几 个 标志 把 
被 研究 的 总 体 划分 为 若干 个 不 同性 质 的 组 ， 使 组 内 的 差异 尽 可 能 小 ,组 间 的 差异 尽 可 能 大 。 
分 组 分 析 法 是 在 分 组 的 基础 上 ， 从 定性 或 定量 的 角度 对 现象 的 内 部 结构 或 现象 之 间 的 依存 关 
系 做 进一步 的 分 析 研 究 ， 以 便 寻 找事 物 发 展 的 规律 ， 然 后 正确 地 分 析 问 题 和 解决 问题 。 

分 组 时 需要 遵循 两 个 原则 ， 即 穷尽 原则 和 互 斥 原则 。 所 谓 穷尽 原则 ， 就 是 使 总 体 中 的 每 
一 个 单位 都 要 被 分 到 一 个 组 中 ， 也 就 是 说 各 分 组 的 空间 要 能 够 容纳 总 体 所 有 的 单位 。 互 斥 原 
则 ， 是 在 特定 的 分 组 标志 下 ， 总 体 中 的 任何 一 个 单位 只 能 归属 于 某 一 个 组 ， 而 不 能 同时 归属 
于 几 个 组 。 

5. 结构 分 析 

结构 分 析 是 建立 在 对 比分 析 的 基础 上 ， 扩 大 对 比 范围 ， 然 后 运用 结构 分 析 进 行 一 一 比 
较 ， 通过 结构 指标 来 解释 企业 资源 结构 分 布 、 生 产 布 局 的 状况 ,便于 经 营 者 进行 调整 ， 投 资 
者 长 期 决策 。 

结构 指标 ( % ) = ( 总 体 中 某 一 部 分 = 总体 总 量 ) x 100% 

结构 指标 是 指 总 体 某 一 部 分 占 总 体 总 量 的 比重 ,总体 中 各 个 部 分 的 结构 相对 数 的 和 等 于 
100%?。 

结构 分 析 广 泛 应 用 于 财政 收 支 领 域 ， 它 能 够 从 不 同 的 维度 展开 结构 分 析 ， 如 科目 结构 、 
区 域 结构 等 。 同 时 饼 图 、 圆 锥 图 和 人 金字塔 图 等 都 是 开展 结构 分 析 的 有 效 工 具 。 

根据 关注 的 时 间 ， 可 分 成 静态 结构 分 析 和 动态 结构 分 析 ; 根据 关注 的 对 象 ， 结 构 分 析 可 


加 ”httpy/www.baike.com/wiki/ 结 构 性 分 析 
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分 成 增 量 结构 分 析 、 元 素 的 比重 分 析 以 及 总 量 结构 分 析 。 结 构 分 析 还 能 够 在 多 种 分 类 间 进 行 
交叉 结构 分 析 。 另 外 ， 按 照 结 构 内 元 素 ， 结 构 分 析 可 以 是 结构 差异 分 析 ， 并 且 可 以 自 定义 结 
构 了 ， 如 图 5.8 所 示 。 


一 总 量 结构 分 析 [一 一 ”总 量 TOPN 因 素 分 析 | 


一 一 一 > 关注 对 象 


vy 


增 量 结构 分 析 | 一 站 增 量 TOPN 因 素 分 析 | 


一 说 元 素 比重 分 析 
静态 结构 分 析 | ”天 。” 当期 同期 
一 | 动态 结构 分 析 ?当期 / 某 期 
两 种 结构 结合 一 一 一 > 交叉 分 析 -让 时间 序 列 
结构 内 元 素 | ”| 结构 差异 分 析 
说 “ 自 定义 结构 
图 5.8 结构 分 析 分 类 图 


vy 


6. 因素 分 析 


因素 分 析 法 是 斯 皮尔 曼 ( C.Spearman ) 在 1904 年 提出 的 ， 根 据 分 析 指 标 与 其 影响 因素 的 
关系 ， 从 而 确定 不 同 因素 对 分 析 指标 影响 程度 以 及 影响 方向 的 一 种 方法 。 因 素 分 析 法 既 能 够 
独立 分 析 某 个 因素 对 经 济 指标 的 影响 ， 又 能 够 全 面 分 析 各 因素 对 某 一 经 济 指标 的 影响 ， 因 素 
分 析 法 实际 就 是 相关 性 概念 ， 是 在 心理 学 领域 中 发 展 起 来 的 一 种 多 变量 解析 手段 。 

因素 分 析 有 以 下 三 种 常见 的 方法 。 

(1 ) 连环 替代 法 ， 是 把 分 析 指 标 拆 分 为 多 个 能 够 计量 的 因素 ， 同 时 按照 因素 相互 间 的 
依存 关系 ， 依 次 测定 各 因素 的 比较 值 ( 一 般 即 实际 值 ) 替换 基准 值 ( 一 般 为 计划 值 或 者 标准 
值 ) ， 据 以 测定 不 同 因素 对 分 析 指 标 产 生 的 影响 。 

(2 ) 差额 分 析 法 ， 又 称 绝对 分 析 法 ， 是 基于 连环 替代 法 的 一 种 简化 形式 ， 主 要 依据 每 
个 因素 的 实际 值 与 标准 值 之 间 的 差异 ， 来 计算 不 同 因素 对 分 析 指 标的 影响 以 及 影响 的 程度 。 

(3 ) 定 基 替代 法 ， 分 别 用 基期 标准 值 替换 实际 值 ， 就 不 同 因素 对 指标 产生 的 影响 进行 
测定 。 与 连环 替代 法 不 同 的 是 ， 其 蔡 代 的 顺序 恰好 相反 。 

7. 交叉 分 析 法 


交叉 分 析 法 是 指 将 有 一 定 联 系 的 两 个 变量 及 其 值 交叉 排列 在 一 张 表 内 ， 使 各 变量 值 成 
为 不 同 变量 的 交叉 结 点 ， 形 成 交叉 表 ， 从 而 分 析 交 叉 表 中 变量 之 间 的 关系 ， 也 叫 交 叉 表 分 析 
法 。 它 是 从 交叉 、 立 体 的 角度 出 发 ， 由 浅 入 深 、 由 低级 到 高 级 的 一 种 分 析 方法 。 虽 然 复杂 ， 
但 这 种 方法 弥补 了 了 “各自为政 ”分 析 方 法 所 带 来 的 偏差 。 常 用 的 是 二 维 交叉 表 分 析 法 ， 当 然 
也 有 二 维 以 上 的 交叉 表 ， 维 度 越 多 ， 交 叉 表 越 复杂 ， 所 以 在 选择 维度 的 时 候 需要 根据 分 析 目 


© http://wenku.baidu.com/view/e42e03679b6648d7c0c74604.html. 
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的 来 决定 。 

目前 交叉 表 分 析 法 被 广泛 用 于 商业 市 场 的 调研 工作 ， 因 为 它 有 如 下 优点 。 

@ 交叉 表 的 分 析 结果 容易 直观 地 被 理解 。 
明确 的 解释 加 强 了 调研 结果 与 调研 对 象 行为 的 联系 。 
一 系列 交叉 表 比 多 变量 分 析 更 容易 理解 复杂 的 问题 。 
交叉 表 可 以 减弱 空格 问题 ， 这 在 多 元 离散 变量 分 析 中 更 突出 。 

@ 交叉 表 可 将 复杂 的 数据 简单 化 。 

交叉 表 分 析 法 也 存在 着 局 限 性 。 第 一 ， 如 果 需 要 考虑 多 个 变量 ， 样 本 容量 就 应 该 相当 
大 。 第 二 ， 很 难 确保 是 否 对 所 有 的 相关 变量 都 进行 了 分 析 ， 如 果 变 量 选 择 的 不 适当 ， 就 会 导 
致 得 出 错误 的 结论 。 即 使 选择 了 正确 的 变量 ， 研 究 者 也 会 因 使 用 不 当 而 无 法 发 现 真正 的 关 
系 。 研 究 者 选择 关键 变量 以 及 根据 这 些 变量 组 成 交叉 表 的 能 力 决定 了 其 能 否 制 作出 一 个 好 的 
交叉 表 。 另 外 ， 随 着 研究 的 目的 、 性 质 的 变化 ,用 于 交叉 表 分 析 的 变量 的 类 型 和 数量 也 应 该 
变化 。 因 此 ， 交 叉 表 分 析 只 能 用 于 有 数据 基础 的 变量 分 析 ， 它 描述 的 是 变量 间 的 关系 ， 但 不 
一 定 是 因果 关系 。 

8. 综合 评价 分 析 法 

综合 评价 分 析 是 运用 多 个 指标 对 多 个 参评 对 象 进行 评价 的 方法 ， 也 称 为 多 变数 综合 评价 
方法 。 其 基本 思想 是 将 多 个 指标 转化 为 一 个 能 反映 综合 情况 的 指标 来 进行 评价 。 如 不 同 国家 
经 济 实力 ,不 同 地 区 社会 发 展 水 平 ， 小 康生 活水 平 达标 进程 ， 企 业经 济 效益 评价 等 ， 都 可 以 
应 用 这 种 方法 。 它 的 特点 包括 以 下 四 个 方面 。 

@ 评价 过 程 不 是 逐个 按照 顺序 完成 ， 而 是 同时 完成 多 个 指标 的 评价 。 

@ 在 过 程 中 ， 根 据 指 标的 重要 性 进行 加 权 处 理 。 

@ 评价 结果 不 是 含有 具体 意义 的 统计 指标 ， 而 是 以 指数 表示 参数 。 

@ 评价 对 象 综合 状况 的 排序 。 

9. 漏斗 图 分 析 法 

漏斗 图 分 析 法 是 一 个 适用 于 业务 流程 比较 规范 、 周 期 比较 长 、 各 环节 流程 比较 复杂 、 业 务 
比较 多 的 分 析 方 法 。 在 业务 流程 中 使 用 漏斗 图 可 以 很 快 地 发 现 业务 流程 中 哪些 环节 存在 问题 ， 
并 且 用 一 种 直观 的 方式 说 明了 问题 的 所 在 。 


下 面 举 例 说 明 漏斗 图 用 于 某 网 站 中 某 此 关 | 党 蝇 ， 100% 
键 路 径 的 转化 率 分 析 ， 它 不 仅 能 够 显示 用 户 从 | 放 A 竺 
进入 网 站 到 实现 购买 的 最 终 转化 率 ， 同 时 还 能 715% 

能 展现 整个 关键 路 径 中 每 一 步 的 转化 率 ， 如 图 | 生产 条 单 30% 

5.9 所 示 。 人 20% 
单一 的 漏斗 图 不 能 作为 评价 网 站 某 个 关键 | 支 全 ra 

流程 中 各 个 步骤 转化 率 的 好 与 坏 的 方法 。 它 可 | 元 这 昌 17% 

以 结合 前 面 讲 到 的 对 比分 析 法 ， 对 同一 环节 前 、 机 和 


后 效果 进行 对 比分 析 ， 或 者 对 同一 环节 不 同 细 图 5.9 网 站 转化 率 ( 漏斗 图 ) 
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分 用 户 群 的 转化 率 进 行 对 比 ， 也 可 以 对 同一 行业 类 似 产品 的 转化 率 进行 比较 等 。 

漏斗 图 不 仅 能 体现 用 户 在 业务 流程 中 的 转化 率 和 流失 率 ， 还 可 以 告知 相关 人 员 哪 种 业务 
在 网 站 中 是 最 重要 、 最 受 欢迎 的 。 通 过 对 不 同业 务 漏 斗 图 的 对 比 ， 同 时 灵活 结合 运用 漏斗 图 
与 其 他 分 析 法 ， 从 而 找 出 业务 受 欢迎 程度 的 不 同 ， 发 现 隐藏 在 其 中 的 问题 。 

5.2.2 ”高 级 分 析 方 法 

1. 时 间 序 列 分 析 

时 间 序 列 分 析 是 一 种 对 动态 数据 进行 处 理 的 分 析 方法 ， 指 一 个 依 时 间 顺 序 组 成 的 观察 数 
据 集合 。 它 包括 一 般 统计 分 析 ( 例如 谱 分 析 、 自 相关 分 析 等 ) ， 建 立 并 推断 统计 模型 ， 以 及 
有 关 时 间 序 列 的 最 优 预测 、 控 制 和 滤波 等 内 容 。 比 如 医院 每 天 门诊 接 诊 人 数 序列 、 电 信 每 晶 
流量 产生 量 序列 、 逐 年 人 口 统计 资料 等 。 传 统 的 统计 分 析 均 假设 数据 序列 具有 独立 性 ， 然 而 
时 间 序 列 分 析 更 偏重 于 对 数据 序列 的 相互 依赖 关系 进行 研究 。 

一 个 时 间 序 列 一 般 由 4 种 要 素 组 成 : 趋势 、 季 节 变 动 、 循 环 波动 和 不 规则 波动 。 趋 势 是 
指 持续 向 上 或 者 向 下 的 波动 ， 季 节 变 动 是 指 一 年 时 间 内 周期 性 的 波动 ， 循 环 波动 是 指 非 固定 
长 度 的 变动 ， 不 规则 波动 是 指 产 生 一 种 波浪 形 或 震荡 式 的 变动 。 时 间 序 列 主要 的 用 途 包括 : 
系统 描述 、 系 统 分 析 、 预 测 未 来 、 决 策 控 制 ， 其 中 预测 是 时 间 序 列 中 最 重要 的 内 容 。 时 间 序 
列 分 析 对 数据 资料 要 求 很 严格 ， 不 允许 出 现 缺失 值 ， 所 以 时 间 序 列 分 析 还 需要 运用 到 缺失 值 
填补 的 方法 。 

(1) 时 间 序 列 的 方法 分 类 

时 间 序 列 分 析 方 法 通常 分 为 描述 性 时 序 分 析 以 及 统计 时 序 分 析 。 

描述 性 时 序 分 析 是 根据 较为 直观 的 数据 或 者 绘图 观测 ， 从 中 找 出 序列 所 蕴含 的 发 展 规 
律 。 该 方法 比较 简单 ， 通 常 是 操作 统计 时 序 分 析 的 第 一 步 。 例 如 ， 通 过 对 比 公 司 财政 收入 的 
历年 增长 趋势 和 季节 波动 趋势 ( 如 图 5.10、 图 5.11 所 示 ) ， 可 以 发 现 同一 个 公司 年 度 财政 收入 
数据 呈现 持续 稳定 地 增长 ， 季 度 财政 收入 数据 的 季节 性 波动 比较 明显 。 这 也 表明 时 间 序 列 分 
析 中 选取 的 时 间 刻 度 越 小 ， 越 能 够 表现 变量 的 变动 情况 。 

12, 000, 000, 000 — : 


10, 000, 000, 000 - 
8, 000, 000, 000 + 
6, 000, 000, 000 + 


4, 000, 000, 000 + 


2, 000, 000, 000 7 


0 | t | | | 1 1 1 | 
1998 1999 2000 2001 2002 2003 2004 2005 2006 
年 
图 5.10 ”年度 时 间 序 列 数据 图 
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3500,000,000 3 
3000,000,000 - : 
2500,000,000 - : 
2000,000,000 - : 


1500,000,000 -1 


1000,000,000 -| 


500,000,000 ] 


季度 1 季度 4 季度 3 季度 2 季度 1 季度 4 季度 3 季度 2 季度 1 季度 4 季度 3 季度 2 
年 /季度 


图 5.11 ”季度 时 间 序 列 数据 图 

统计 时 序 分 析 包括 两 种 分 析 方 法 : 频 域 分 析 方 法 和 时 域 分 析 方 法 。 频 域 分 析 方 法 的 原理 
是 假设 任何 一 种 无 趋势 的 时 间 序 列 都 可 以 分 解 为 若干 个 不 同 频率 的 周期 波动 ， 它 重点 分 析 的 
是 频率 特征 ， 常 用 于 电力 以 及 工程 等 方面 。 时 域 分 析 方 法 的 原理 是 事件 的 发 展 经 常 都 具有 一 
定 的 惯性 ， 用 统计 的 语言 来 描述 ， 这 种 惯性 就 是 序列 值 之 间 存 在 一 定 的 相关 关系 ， 在 这 种 相 
关 关 系 中 一 般 就 含有 某 种 统计 规律 。 这 种 方法 重点 分 析 的 是 事物 随时 间 的 发 展 变 迁 的 趋势 ， 
常用 于 人 口 、 经 济 、 气 象 等 方面 。 

时 序 分 析 方 法 的 目的 是 找 出 时 间 序 列 值 之 间 相 关 关 系 的 统计 规律 ， 并 建立 适当 的 数学 模 
型 来 描述 这 种 规律 ， 进 而 利用 这 个 模型 来 预测 未 来 的 走势 。 对 于 时 间 序 列 数据 趋势 变化 可 以 
用 ( 按 年 /月 ) 柱 型 图 、 折 线 图 来 展现 ， 也 可 以 利用 指数 平滑 等 技术 对 折线 图 进行 趋势 拟 合 。 

(2 ) 时 间 序 列 分 析 建 模 与 应 用 

时 间 序 列 分 析 模型 的 建立 主要 有 两 种 : 曲线 拟 合 和 参数 估计 。 目 前 主要 建立 两 种 类 型 的 
模型 ， 即 ARMA 模 型 和 ARIMA 模 型 9。 

ARMA 模 型 的 全 称 是 自 回 归 移动 平均 ( Auto Regression Moving Average ) 模型 ， 它 是 目 
前 最 常用 的 拟 合 平稳 序列 的 模型 ， 可 细 分 为 AR 模型 ( Auto Regression Model ) 、MA 模 型 
( Moving Average Model ) 和 混合 ARMA 模 型 三 大 类 。 

ARIMA 模 型 又 称 自 回归 求 和 移动 平均 模型 ， 当 时 间 序 列 本 身 不 是 平稳 的 时 候 ， 如 果 它 的 
增 量 ， 即 一 次 差分 ， 稳 定 在 零点 附近 ， 则 可 以 将 其 看 成 是 平稳 序列 。 在 实际 的 应 用 中 ， 所 遇 
到 的 多 数 非 平稳 序列 可 以 通过 一 次 或 多 次 差分 后 成 为 平稳 时 间 序 列 ， 进 而 可 以 建立 模型 。 这 
说 明 任何 非 平稳 序列 只 要 通过 适当 阶 数 的 差分 运算 实现 差分 后 平稳 ， 就 可 以 对 差分 后 序列 进 
行 ARIMA 模 型 拟 合 了 。 

建立 时 间 序列 模型 的 一 般 步骤 如 下 。 

@ 收 集 数 据 。 时 间 序 列 分 析 法 分 析 的 是 被 观测 系统 的 时 间 序 列 动态 数据 ， 对 这 些 数 据 的 
收集 ， 常 用 的 方法 包括 观测 、 调 查 、 统 计 和 抽样 等 。 

@@ 作 图 分 析 。 针 对 需要 分 析 的 时 间 序 列 动态 数据 ,运用 相关 的 方法 制作 相关 图 ， 并 进行 
相关 分 析 ， 从 而 得 到 自 相 关 函 数 。 相 关 图 可 以 提供 很 多 关于 这 些 动态 数据 的 信息 ， 比 如 在 图 
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上 可 以 观察 到 变化 的 趋势 和 周期 ， 跳 点 以 及 押 点 。 所 谓 跳 点 ， 指 的 是 那些 和 其 他 数据 不 一 致 
的 对 象 ， 而 拐点 指 的 是 时 间 序列 趋势 又 然 改变 的 点 。 对 跳 点 和 拐点 的 处 理 是 不 一 样 的 。 对 于 
跳 点 ， 首 先 要 判断 是 否 属于 正常 现象 ， 若 正常 ， 则 在 建立 模型 的 过 程 中 就 要 考虑 到 ; 若 判断 为 
异常 现象 ， 则 需要 对 其 进行 调整 ， 使 其 达到 期 望 从。 对 于 拐点 ， 若 其 存在 ， 则 在 建 模 的 过 程 
中 ， 需 要 对 时 间 序 列 进行 分 段 拟 合 。 分 段 拟 合 的 模型 是 不 相同 的 ， 比 如 采用 门限 回归 模型。 

加 曲线 拟 合 。 根 据 分 析 结果 ， 选 择 适当 的 随机 模型 对 时 间 序列 数据 进行 拟 合 ， 也 就 是 曲 
线 拟 合 。 随 机 模型 需要 针对 时 间 序列 的 具体 情况 来 选择 ， 比 如 ， 较 短 的 或 者 相对 比较 简单 的 
时 间 序列 ， 可 以 选择 趋势 模型 和 季节 模型 并 加 上 误差 来 拟 合 ， 而 对 于 平稳 时 间 序列 ， 可 以 先 
择 通用 ARIMA 模 型 及 其 特殊 情况 的 自 回归 模型 、 滑 动 平均 模型 或 组 合 ARIMA 模 型 等 模型 。 对 
于 观测 值 数目 较 大 ( 多 于 50 个 ) ， 可 以 选择 ARIMA 模 型 。 对 于 非 平稳 时 间 序列 ， 首 先 需要 对 
其 进行 处 理 ， 即 通过 差分 运算 转化 为 平稳 时 间 序 列 ， 得 到 的 是 差分 序列 ， 然 后 选择 合适 的 模 
型 来 拟 合 。 

时 间 序 列 是 一 种 特殊 的 随机 过 程 ， 当 X (7 ) 中 的 / 值 取 非 负 整数 时 ， 就 可 以 代表 各 个 时 
刻 ， 可 以 看 作 是 时 间 序列 。 因 此 ， 当 一 个 随机 过 程 可 以 看 作 时 间 序列 时 ， 就 可 以 利用 现 有 的 
时 间 序列 模型 建 模 分 析 该 随机 过 程 的 特性 。 

时 间 序列 分 析 有 很 多 实际 的 应 用 ， 比 如 气象 、 水 文 、 地 震 以 及 其 他 自然 灾害 的 预报 ， 国 
民 经 济 宏观 控制 ， 环 境 污染 控制 ， 区 域 综合 发 展 规划 ， 企 业经 营 管理 ， 市 场 流量 预测 等 。 访 
方法 在 生态 平衡 、 天 文学 和 海洋 学 等 方面 也 有 着 广泛 的 应 用 。 

2. 相关 分 析 

相关 分 析 是 一 种 研究 变量 间 相 关 性 的 统计 方法 ， 包 括 变量 间 是 否 有 依存 关系 ， 如 果 有 是 
怎样 的 关系 ， 以 及 这 种 依存 关系 的 相关 方向 和 相关 程度 等 。 它 是 进行 因果 分 析 的 基本 工具 ， 
通过 相关 分 析 可 以 判断 经 济 指标 之 间 的 蔡 代 关系 和 关联 度 ?。 

相关 分 析 用 来 研究 两 个 变量 (x*，y ) 的 相互 关系 ， 测 定 它 们 联系 的 紧密 程度 。 测 定 的 方法 
可 以 从 散 点 图 直观 地 进行 观察 也 可 以 通过 计算 相关 系数 /得 到 较为 精确 的 判断 。 计 算 公 式 : 

nD -Dy 


(5-3) 
jz -Ox D3 -之 闻 


注 : 相关 分 析 也 可 以 通过 革 些 软件 ， 如 SPSS 、Eviews 等 计算 得 到 。 

相关 分 析 的 分 类 如 下 。 

@ 线性 相关 分 析 : 主要 针对 两 个 变量 之 间 存 在 的 线性 关系 进行 研究 分 析 ， 变 量 间 线 性 
关系 强 弱 的 程度 通常 用 相关 系数 来 刻画 。 如 果 x，y 变 化 的 方向 一 致 ， 且 得 到 1>0; 
则 表示 这 两 个 变量 呈正 相关 ; 若 r<0， 则 表示 这 两 个 变量 呈 负 相关 ; 若 r=0， 则 表示 
这 两 个 变量 无 线性 相关 。 相 关系 数 r 的 取 值 范围 是 |r|<1， 如 果 |r|>0.80 时 具有 强 的 正 
( 负 ) 相关 关系 ,如果 0.3<|r|<0.80 时 具有 弱 的 正 ( 负 ) 相关 关系 。 如 果 |r|<0.30 时 


二 
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认为 没有 有 效 的 相关 关系 。 
@ 偏 相关 分 析 : 该 分 析 就 是 先 控制 一 些 对 两 变量 间 的 相关 性 可 能 有 影响 的 其 他 变量 ， 再 
对 两 变量 间 的 线性 相关 性 进行 研究 分 析 。 例 如 通过 控制 年 龄 和 工作 经 验 的 影响 ， 然 后 
估计 工资 收入 与 受 教育 水 平 之 间 的 相关 关系 。 
@ 距离 分 析 : 是 通过 距离 的 大 小 对 观测 量 之 间或 变量 之 间 相 似 或 不 相似 程度 的 一 种 测 
度 ， 是 一 种 广义 的 距离 。 分 为 观测 量 之 间距 离 分 析 和 变量 之 间距 离 分 析 。 
值得 注意 的 是 ， 相 关 分 析 并 不 是 因果 分 析 ， 不 会 对 两 个 变量 的 因果 关系 进行 判断 ， 在 回 
归 分 析 中 更 强调 的 是 自 变量 和 随 之 而 变 的 因 变 量 。 相 关系 数 的 计算 方法 是 以 直线 关系 为 前 提 
的 ， 如 果 是 曲线 关系 ， 则 相关 系数 方法 计算 时 会 出 现 错误 的 结果 。 相 关 分 析 和 回归 分 析 这 两 
种 方法 虽然 分 析 的 是 变量 之 间 的 关系 ,但 是 相关 分 析 是 回归 分 析 的 基础 ， 而 回归 分 析 则 是 认 
识 变量 之 间 相 关 程 度 的 具体 形式 。 


3. 回归 分 析 


回归 分 析 是 在 掌握 大 量 观察 数据 的 基础 上 ， 利 用 数理 统计 方法 建立 因 变 量 与 自 变 量 之 间 
的 回归 关系 函数 表达 式 ， 即 回归 方程 式 。 该 方法 是 一 种 统计 学 上 分 析 数 据 的 方法 ， 主 要 用 于 
得 到 变量 之 间 的 关系 ， 比 如 这 些 变 量 是 否 相 关联 、 相 关 的 方向 以 及 相关 的 强度 等 ， 同 时 建立 
相应 的 数学 模型 ， 从 而 把 握 特 定 的 变量 ， 并 且 对 研究 人 员 感 兴趣 的 变量 进行 预测 。 找 出 一 条 
最 能 够 代表 所 有 观测 资料 的 函数 曲线 ( 回归 估计 式 ) 是 回归 分 析 的 目的 所 在 。 然 后 用 此 函数 
表示 因 变 量 和 自 变量 之 间 的 关系 。 

进行 回归 分 析 的 步骤 如 下 。 

变量 的 确定 。 变 量 的 确定 包括 自 变量 和 因 变 量 , 关键 需要 根据 预测 目标 进行 变量 的 确 
定 。 例 如 ， 如 果 要 对 下 季度 的 商品 销售 量 进行 预测 ， 即 确定 了 预测 的 目标 为 销售 量 ， 则 这 个 
预测 目标 就 是 模型 的 因 变量 。 确 定 了 因 变 量 后 ， 就 需要 选择 自 变量 了 。 自 变量 通常 是 与 预测 
目标 具有 一 定 影 响 的 因素 ， 一 般 选择 主要 的 影响 因素 作为 自 变量 。 

@ 回 归 模 型 的 建立 。 依 据 自 变量 和 因 变 量 的 历史 统计 资料 进行 计算 ， 在 此 基础 上 建立 
归 分 析 方 程 ， 即 回归 分 析 预 测 模型 。 首 先 需要 运用 相关 的 方法 对 这 些 历史 资料 进行 处 理 ， 然 
后 再 利用 最 小 二 乘法 或 者 极 大 似 然 法 的 方法 建立 科学 合理 的 回归 分 析 预 测 模型 。 

图 相关 分 析 。 因为 回归 分 析 进 行 的 是 自 变量 和 因 变 量 之 间 的 因果 关系 的 分 析 ， 因 此 建立 
相应 的 模型 进行 回归 分 析 就 要 求 自 变量 和 因 变 量 之 间 是 有 某 种 因果 关系 的 ， 否 则 回归 分 析 是 
毫 无 价值 的 。 所 以 ， 进 行 回归 分 析 需 要 掌握 自 变量 和 因 变 量 的 一 些 相关 信息 : 比如 自 变量 和 
因 变 量 之 间 是 否 存 在 一 定 的 相关 性 ， 如 果 存 在 那么 相关 的 程度 是 怎么 样 的 ， 能 否 较为 准确 地 
判断 相关 程度 等 。 相 关系 数 是 相关 分 析 一 个 比较 重要 的 概念 ， 它 能 够 作为 自 变 量 和 因 变 量 之 
间 相 关 程 度 的 度量 ， 因 此 ， 进 行 相关 分 析 通 常 需要 确定 出 相关 系数 的 具体 数值 。 

@ 模 型 的 检验 ， 预 测 误差 的 计算 。 建 立 的 回归 预测 模型 不 一 定 可 以 对 实际 问题 进行 预 
测 ， 需要 对 模型 进行 检验 。 此 外 ， 预 测 误差 也 是 衡量 一 个 回归 预测 模型 的 重要 指标 。 一 个 好 
的 回归 预测 模型 必须 能 够 通过 多 方面 的 检验 ， 同 时 它 的 预测 误差 也 是 比较 小 的 。 这 样 的 模型 
可 以 得 到 比较 好 的 预测 结果 。 

回 预测 值 的 确定 。 运 用 之 前 确定 的 回归 预测 模型 进行 预测 值 的 计算 ， 再 根据 具体 的 实际 
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情况 ， 运 用 相关 知识 进行 全 面 分 析 ， 从 而 得 到 最 终 的 预测 值 。 
回归 分 析 有 很 多 种 类 ， 按 照 不 同 的 标准 可 以 分 成 不 同 的 类 别 。 如 果 回 归 分 析 模型 中 只 有 
一 个 自 变量 ， 则 为 一 元 回归 分 析 ; 如 果 自 变量 的 个 数 多 于 一 个 ， 则 为 多 元 回归 分 析 。 这 种 划 
分 是 按照 自 变 量 的 个 数 进行 的 。 也 可 以 依据 自 变量 的 次 方 进行 划分 ， 得 到 线性 回归 模型 和 非 线 
性 回归 模型 。 线 性 回归 分 析 模型 中 的 自 变 量 都 是 一 次 方 的 ， 非 线性 回归 分 析 是 除了 线性 回归 分 
析 以 外 的 回归 分 析 。 下 面 以 线性 回归 为 例 ， 来 说 明 回归 方程 以 及 相关 系数 、 回 归 系 数 的 求法 。 
线性 回归 方程 可 以 由 许多 相关 的 方法 得 到 ， 通 常 运用 最 小 二 乘法 ， 如 y=bx 十 a 的 直线 ， 可 

以 计算 出 它 的 经 验 拟 合 方程 0， 计算 公式 ; 
pb- Tu ~ -») 


= (5-4) 
rik —X)? 
通过 以 下 公式 来 得 到 相关 系数 ， 从 而 判断 拟 合 的 好 坏 程度 : 
a =y—bx (5-5) 


对 大 部 分 的 行为 研究 者 来 讲 ， 在 回归 结果 输出 中 ， 最 重要 的 是 回归 系数 ， 一 般 要 求 这 个 
值 大 于 0.05， 则 变量 间 的 影响 不 是 显著 的 ， 若 小 于 0.05， 则 是 显著 的 。 
利用 最 小 二 乘法 能 够 计算 出 线性 回归 模型 中 的 参数 ， 但 是 这 样 的 线性 回归 方程 若 需 要 盈 
余 与 实际 问题 的 分 析 时 ， 还 需要 对 回归 方程 的 线性 关系 进行 各 种 统计 检验 ， 如 : 回归 方程 显 
著 性 检验 、 回 归 系 数 显著 性 检验 、 残 差分 析 等 。 在 实际 运用 中 ， 线 性 回归 的 应 用 非常 广泛 ， 
可 分 为 以 下 两 大 类 : 
@ 预测 功能 。 若 分 析 的 目标 是 预测 或 者 是 映射 ， 线 性 回归 模型 能 够 根据 观测 到 的 数据 集 
合 以 及 x 的 值 ， 拟 合 得 到 一 个 预测 模型 。 这 个 模型 可 以 针对 新 出 现 的 +， 在 没有 给 定 与 
其 相应 的 y 值 的 情况 下 ， 给 出 一 个 预测 值 y。 
@@ 确定 变量 间 的 相关 性 以 及 相关 程度 。 若 给 定 一 个 变量 y 和 一 系列 变量 XI，…，X,， 这 一 
系列 变量 可 能 与 ?有 关联 ， 也 可 能 不 相关 。 通 过 线性 回归 分 析 能 够 得 到 y 与 这 一 系列 的 
x 的 相关 程度 的 一 个 量化 ， 同 时 能 够 筛选 出 哪些 变量 与 ?相关 ， 哪 些 变量 与 ?相关 ， 并 
对 含有 与 ?相关 宛 余 信 息 的 变量 xz 的 子 集 进行 识别 。 
4. 判别 分 析 
当 得 到 一 个 新 的 样本 数据 时 ， 如 果 要 确定 该 样品 属于 已 知 类 型 中 的 哪 一 类 ， 就 需要 运用 
判别 分 析 来 解决 该 问题 。 判 别 分 析 也 称 “ 分 辨 法 ”， 是 类 别 明确 的 一 种 分 类 技术 ， 其 分 类 方 
式 是 事先 确定 ， 依 据 若干 变量 值 判 断 研究 对 象 归属 问题 的 一 种 多 变量 统计 分 析 方 法 。 
判别 分 析 的 基本 原理 是 按照 一 定 的 判别 原则 ， 建 立 一 个 或 多 个 判别 函数 ， 用 研究 对 象 的 
大 量 资料 确定 判别 函数 中 的 变量 系数 ， 并 计算 判别 指标 。 根 据 判别 指标 就 可 以 确定 观察 对 象 
属于 哪 一 类 。 其 主要 目的 是 根据 已 知 类 别 的 样本 建立 判别 模型 ， 然 后 依据 该 模型 判别 未 知 类 
别 的 样本 的 归属 问题 。 
判别 函数 的 一 般 公式 : 


y=an + N+..., ,x, (5-6) 
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其 中 ，7 束 示 判 别 值 ，x，x。，…，xn 为 反映 研究 对 象 的 变量 值 ，a1，a,，…，a, 表 示 各 变 
量 的 系数 ， 也 称 判 别 系数 。 


判别 分 析 的 分 类 如 图 5.12 所 示 。 
根据 淹 别 的 |】 [根据 判 别 丽 | |[ 根据 淹 别 的 |】 [判别 式 处 理 | [根据 关 别 
组 数 数 的 形式 模型 ”| | 变量 的 方法 | | 。 标准 
两 组 判别 贡 季 判别 
a 线性 判别 | 和 逐步 判别 | 距离 判别 
ET 员 叶 斯 Fisher 
分 析 判别 判别 并 二 | 判别 
| 非 参 数 Bayes 
判别 判别 


图 5.12 ”判别 分 析 分 类 图 

投影 是 费 砍 ( Fisher ) 判别 的 基本 思想 ， 通 过 投影 将 多 维 问题 转化 成 为 较 简单 的 一 维 问 
题 来 分 析 。 投 影 的 基本 步 桑 是 首先 选择 投影 轴 ， 确 定 正确 的 投影 届 后 ， 再 将 所 有 的 样本 点 投影 
到 该 投影 山上 ， 从 而 得 到 一 个 投影 值 。 投 影 届 的 选择 是 有 一 定 规定 的 ， 方 向 要 求 ， 保 证 每 一 个 
类 中 的 投影 值得 到 的 类 内 离 差 尽量 小 ,不同 的 类 之 间 的 投影 值得 到 的 类 间 离 差 尽量 大 。 概 率 是 
贝 叶 斯 ( Bayes ) 判别 的 基本 思想 ， 即 首先 由 先 验 概率 计算 出 后 验 概率 ， 然 后 根据 后 验 概率 的 分 
布 进行 判别 分 析 。 贝 叶 斯 ( Bayes ) 判别 涉及 两 个 概念 : 先 验 概率 和 后 验 概率 。 先 验 概率 ， 即 对 
研究 对 象 事先 认识 的 程度 用 概率 来 描述 ， 这 个 概率 称 为 先 验 概率 ; 后 验 概率 ， 即 由 一 些 具体 的 
资料 、 先 验 概率 以 及 给 定 的 判别 规则 ， 通 过 计算 得 到 的 概率 。 后 验 概率 是 对 先 验 概 率 的 修正 。 

距离 判别 的 基本 依据 是 距离 ， 即 各 个 样本 与 各 个 母体 间 的 距离 。 距 离 判别 就 是 依据 这 个 
距离 进行 判别 的 。 首 先 需要 得 到 各 个 母体 的 距离 判别 函数 ， 这 个 函数 式 是 依据 具体 的 资料 构建 
的 。 然 后 ， 依 次 代入 各 个 样本 数据 ， 从 而 计算 出 各 个 样本 与 各 个 母体 间 的 上 距离。 最后， 根据 距 
离 值 最 小 原则 对 样本 归属 进行 判别 ， 即 样本 与 哪个 母体 的 距离 最 小 那么 就 属于 那个 母体 9。 

5. 主 成 分 分 析 与 因子 分 析 


(1 ) 主 成 分 分 析 

主 成 分 分 析 ( Principal Component Analysis，PCA ) ， 是 一 种 多 元 统计 分 析 方 法 。 该 方法 
把 多 个 变量 进行 线性 变换 ， 从 而 得 到 不 相关 的 综合 变量 ， 再 根据 给 定 的 规则 从 中 选择 出 少数 
几 个 能 够 较 好 反映 出 原始 变量 信息 的 综合 变量 。K. 皮 尔 森 对 非 随 机 变量 最 先 引 入 了 主 成 分 分 
析 法 ， 后 来 蔚 . 霍 特 林 将 该 方法 推广 到 了 随机 向 量 ， 用 于 分 析 数 据 及 建立 数理 模型 。 该 方法 主 
要 是 通过 对 协 方差 矩阵 进行 特征 分 解 ， 以 得 出 数据 的 主 成 分 ( 即 特征 向 量 ) 及 它们 的 权 值 
( 即 特征 值 ) 。 

主 成 分 分 析 的 实际 常用 计算 步骤 如 下 。 

人 计算 相关 系数 矩阵 。 

@ 求 出 相关 系数 矩阵 的 特征 值 i 及 相应 的 正 交 化 单位 特征 向 量 a;。 


@ http://blogsina.com.cn/s/blog 436dc2b801011qt9.html 
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@@ 选 择 主 成 分 。 

由 计算 主 成 分 得 分 。 

(2 ) 因子 分 析 

因子 分 析 是 英国 心理 学 家 C.E. 斯 皮尔 曼 提出 的 ， 是 一 种 将 多 变量 化 简 的 技术 。 该 方法 依 
据 变 量 之 间 的 相关 性 ， 把 多 个 具有 重 倒 信息 、 关 系 复杂 的 变量 归 为 少数 几 个 不 相关 的 变量 ， 
即 综合 因子 了 ?。 因 子 分 析 的 由 来 是 斯 皮尔 曼 发 现 如 果 一 个 学 生 有 一 科 成 绩 比 较 好 ， 那 么 通常 这 
位 学 生 其 余 科 目的 成 绩 也 会 比较 好 ， 即 学 生 的 各 科 成 绩 之 间 存 在 着 一 定 的 相关 性 。 根 据 这 一 事 
实 ， 推断 是 否 有 某 些 共 性 因子 ,或 者 存在 某 些 智力 条 件 因素 对 学 生 的 课程 成 绩 产生 影响 ?。 

由 原始 变量 得 到 少数 几 个 代表 因子 是 因子 分 析 的 目的 ， 但 前 提要 求 是 ， 变 量 之 间 应 该 具 
有 较 强 的 相关 关系 。 它 的 基本 思想 是 : 按照 相关 性 的 强度 对 原 有 变量 进行 分 组 ， 使 得 不 同 组 
内 的 变量 之 间 没 有 相关 性 或 者 相关 性 较 低 ， 同 组 的 变量 相关 性 高 ， 从 而 得 到 共性 因子 也 就 是 
每 组 变量 代表 的 一 个 基本 结构 。 因 子 分 析 不 但 可 以 减少 变量 的 数目 ， 还 可 以 检验 变量 间 关 系 
的 假设 。 它 主要 是 用 于 寻找 变量 之 间 的 潜在 结构 、 内 在 结构 的 证 实 以 及 评估 问卷 的 结构 效 度 
等 。 根 据 方法 ， 因 子 分 析 可 以 分 为 探索 性 因子 分 析 和 验证 性 因子 分 析 ， 它 们 之 间 的 主要 区 别 
是 有 没有 事先 假定 因子 与 测度 项 之 间 的 关系 。 

(3 ) 因子 分 析 的 数学 模型 

因子 分 析 的 过 程 是 将 许多 原 有 的 变量 表示 成 几 个 具有 代表 性 的 公共 因子 。 下 面 ， 利 用 数 
学 模型 来 表示 其 主要 过 程 。 因 子 分 析 模型 为 : 


AH=aR +ab t+“anF, + a 


=auF + a +**a ,Fh, +é, (5_7) 
Xp =apF t+apb t+"apmnF, + é, 
说 明 : ai， 因 子 载荷 ( 实际 上 是 权 数 ) ; Fi， 公 共 因 子 ( 主因 子 ) ; au ~ aw。， 组 成 因子 
载荷 矩阵 ， sa， 特殊 因子 。 
因子 载荷 的 统计 意义 是 ， 第 i 个 变量 与 第 j 个 公共 因子 的 相关 系数 ， 即 表示 变量 芋 依 赖 于 五 的 
比重 ， 心 理学 家 将 它 称 为 载荷 。 特 殊 因子 表示 原始 变量 中 不 能 由 因子 解释 的 部 分 ， 均 值 为 0。 
(4 ) 主 成 分 分 析 与 因子 分 析 的 区 别 
主 成 分 分 析 和 因子 分 析 无 论 从 基本 思想 上 还 是 应 用 上 都 有 相似 之 处 ， 但 也 存在 一 些 区 
别 ， 可 以 总 结 为 以 下 七 点 。 
@ 原理 不 同 。 主 成 分 分 析 基 本 原理 是 利用 降 维 ( 线性 变换 ) 的 思想 ， 从 多 个 原始 变量 提 
取 几 个 不 相关 的 主 成 分 ， 使 得 提取 出 来 的 主 成 分 与 原始 变量 相 比 具有 某 些 更 优越 的 性 
能 ， 从 而 达到 既 不 忽视 问题 的 实质 ， 又 简化 了 系统 结构 的 目的 。 因 子 分 析 基 本 原理 也 
是 利用 降 维 的 思想 ， 提 取 几 个 支配 原始 变量 的 公 因子 和 一 个 特殊 因子 ， 各 个 公 因 子 之 
间 可 以 是 相关 或 不 相关 的 。 
@ 线性 表示 方向 不 同 。 因 子 分 析 是 用 各 个 公 因 子 的 线性 组 合 来 表示 变量 ， 而 主 成 分 分 析 


人 http:/blog.sina.com.cn/s/blog_6b36e67501013mmd.html 
回 ”http://www.docin.com/p-30447979.html. 
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则 是 用 主 成 分 的 线性 组 合 表示 各 变量 。 

@ 假设 条 件 不 同 。 进 行 因子 分 析 要 做 一 定 的 假设 ， 这 些 假 设 为 各 共性 因子 不 相关 、 各 特 
殊 因子 (specificfactor ) 不 相关 、 共 性 因子 与 特殊 因子 不 相关 等 ; 而 进行 主 成 分 分 析 
不 用 做 任何 假设 9。 

@ 求解 方法 不 同 。 求 解 主 成 分 的 方法 有 从 协 方差 阵 出 发 ( 协 方差 阵 已 知 ) 和 从 相关 阵 出 
发 (相关 阵 R 已 知 ) ， 采 用 的 方法 只 有 主 成 分 法 。 求 解 因子 载荷 的 方法 有 很 多 种 ， 包 
括 主 成 分 法 、 主 轴 因 子 法 、 极 大 似 然 法 、 最 小 二 乘法 、a 因 子 提取 法 等 。 

@ 解释 重点 不 同 。 因 子 分 析 提 取 的 共性 因子 比 主 成 分 分 析 提 取 的 主 成 分 更 具有 解释 性 。 
主 成 分 分 析 把 解释 的 重点 放 在 各 变量 的 总 方差 ， 忽 略 各 变量 的 度量 误差 ; 而 因子 分 析 
把 解释 的 重点 放 在 各 变量 间 的 协 方差 ， 潜 在 变量 修正 了 观察 变量 的 误差 。 

@ 因子 和 主 成 分 的 变化 不 同 。 如 果 相 关 短 阵 的 特征 值 或 协 方差 矩阵 惟一 ， 那 么 主 成 分 通 
常 是 固定 的 ; 而 由 于 因子 可 以 旋转 得 到 不 同 的 因子 ， 所 以 因子 不 是 固定 不 变 的 。 

@@ 数量 的 不 同 。 主 成 分 的 个 数 是 固定 的 ， 通 常情 况 下 主 成 分 的 数目 和 变量 数 是 相同 的 ， 
不 同 的 只 是 主 成 分 解释 的 信息 量 ; 而 因子 的 数目 是 用 户 给 定 的 ， 比 如 运用 SPSS 软 件 
时 ， 可 以 根据 相应 的 条 件 自动 设 定 ， 只 要 是 特征 值 大 于 1 的 因子 便 进 入 分 析 。 指 定 的 
因子 数目 影响 分 析 的 结果 ， 因 子 数目 不 同 ， 结 果 也 不 同 。 

6. 对 应 分 析 


对 应 分 析 ( Correspondence Analysis ) 也 称 关联 分 析 、R-Q 型 因子 分 析 ， 是 近年 新 发 展 起 
来 的 一 种 多 元 统计 分 析 技 术 ， 对 由 定性 变量 构成 的 交互 汇总 表 进 行 分 析 ， 以 此 来 揭示 变量 间 
的 联系 。 主 要 适用 于 有 多 个 类 别 的 定 类 变量 ， 可 以 揭示 同一 变量 的 各 个 类 别 之 间 的 差异 ， 以 
及 不 同 变量 各 个 类 别 之 间 的 对 应 关系 。 对 应 分 析 的 基本 思想 是 将 一 个 列 联 表 的 行 和 列 中 各 元 
素 的 比例 结构 以 点 的 形式 在 较 低 维 的 空间 中 表示 出 来 。 其 最 大 的 特点 是 能 把 众多 的 样本 和 变 
量 同时 展现 在 同一 张 图 上 ， 将 样本 的 大 类 及 其 属性 在 图 上 直观 而 又 明了 地 表示 出 来 ， 具 有 直 
观 性 。 因 此 ， 它 是 强 有 力 的 数据 图 示 化 技术 ， 当 然 也 是 强 有 力 的 市 场 研 究 分 析 技 术 。 

对 应 分 析 法 整个 处 理 过 程 由 两 部 分 组 成 : 表格 和 关联 图 。 表 格 在 对 应 分 析 法 中 指 的 是 一 
个 二 维 的 表格 ， 它 由 行 和 列 组 成 。 每 行 代表 研 究 对 象 的 一 个 属性 ， 依 次 排 开 。 列 则 代表 不 同 
的 对 象 本 身 ， 它 由 样本 集合 构成 ， 排 列 顺序 并 没有 特别 的 要 求 。 在 关联 图 上 ， 各 个 样本 都 浓 
缩 为 一 个 点 集合 ， 而 样本 的 属性 变量 在 图 上 同样 也 是 以 点 集合 的 形式 展现 出 来 。 

对 应 分 析 对 数据 的 格式 要 求 : 

@ 对 应 分 析 数 据 的 典型 格式 是 列 联 表 和 交叉 频数 表 。 
常 表示 不 同 背 景 的 消费 者 对 若干 产品 或 产品 属性 的 选择 频率 。 
背景 变量 或 属性 变量 可 以 单独 使 用 或 并 列 使 用 。 
两 个 变量 间 称 为 简单 对 应 分 析 。 
多 个 变量 间 称 为 多 元 对 应 分 析 。 
例如 ， 假 定 有 个 汽车 数据 集 ， 包 括 : 来 源 国 ( 1 一 美国 、2 一 欧洲 、3 一 日 本 ) ， 尺 二 


加。 http://wenku.baidu.com/view/18d600d284254b35eefd34de.html 
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(1 一 大 型 、2 一 中 型 、3 一 小 型 ) ， 类 型 ( 1 一 家 庭 、2 一 运动 、3 一 工作 ) ,拥有 (1 一 自 有 、 
2 一 租赁 ) ， 性 别 (1 一 男 、2 一 女 ) ， 收 入 来 源 ( 1 一 1 份 工 资 来 源 、2 一 2 份 工资 来 源 ) ， 婚 姻 
状况 〈 ] 一 已 婚 、2 一 已 婚 有 孩子 、3 一 单身 、4 一 单身 有 孩子 ) 。 
从 数据 集 看 ， 有 7 个 定 类 变量 ， 当 组 合成 简单 的 交叉 表 是 困难 的 事情 时 ， 就 应 采用 多 重 
对 应 分 析 。 本 例 采 用 SPSS 来 对 其 进行 对 应 分 析 ， 可 以 把 要 分 析 的 变量 都 放 到 分 析 变 量 内 ， 选 
择 类 别 图 ( 每 一 个 变量 的 分 类 图 ， 重 点 是 选择 联合 类 别 图 ) 。 当 把 7 个 变量 全 部 放 入 ,然后 执 
行 ， 之 后 得 到 如 图 5.13 所 示 的 结果 。 
2.0 
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图 5.13 类别 点 联合 图 

从 图 5.13 中 可 以 看 出 : 美国 车 都 比较 大 ， 家 庭 型 ， 主 要 购买 者 是 已 婚 带 孩子 的 ; 日 本 和 
欧洲 车 主要 是 小 型 、 运 动 的 ， 主 要 购买 者 是 已 婚 没 有 孩子 的 人 购买 ; 值得 注意 的 是 单身 和 单 
身 带 孩子 的 往往 选择 租赁 汽车 ， 因 为 这 类 人 收入 来 源 单一 。 但 是 这 个 地 区 没有 车 满足 这 个 市 
场 ， 也 许 是 市 场 空白 。 

对 应 分 析 主 要 应 用 领域 : 概念 发 展 ( Concept Development ) 、 新 产品 开发 ( New Product 
Development ) 、 市 场 细 分 ( Market Segmentation ) 、 竞争 分 析 ( Competitive Analysis ) 和 广告 
研究 ( Advertisement Research ) 等 。 


7. 多 维 尺 度 分 析 


多 维 尺 度 分 析 ( Multi-dimension Scaling, MDS) 一 种 将 多 维 空间 的 研究 对 象 ( 样本 或 变 
量 ) 简化 到 低 维 空间 ( 一 般 是 二 维 到 三 维 空间 ) 进行 定位 、 分 析 和 归 类 ， 同 时 又 保留 对 象 间 
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原始 关系 的 数据 分 析 方法 。 比 如 在 消费 者 行为 分 析 上 ， 可 以 将 消费 者 对 品牌 的 感觉 偏好 ， 以 
点 的 形式 反映 在 多 维 空 间 上 ， 而 对 不 同 品牌 的 感觉 或 偏好 的 差异 程度 ， 则 是 通过 点 与 点 间 的 
距离 体现 的 。 这 种 品牌 或 项 目的 空间 定位 点 图 称 为 空间 图 ， 空 间 轴 代表 着 消费 者 得 以 形成 对 
品牌 的 感觉 或 偏好 的 各 种 因素 或 变量 。 多 维 尺 度 分 析 是 一 种 探索 性 数据 分 析 方 法 。 该 方法 的 
基本 思想 是 被 访 者 对 研究 对 象 相似 性 的 感知 ， 是 用 被 访 者 对 研究 对 象 的 分 组 来 反映 的 。 多 维 
尺度 分 析 是 分 析 消 费 者 感觉 和 偏好 的 最 有 效 的 方法 ， 它 能 以 直观 图 的 方式 提供 一 个 简化 的 分 
析 方 法 ， 具 有 一 定 直观 性 和 合理 性 。 

距离 矩阵 通常 可 以 使 用 两 种 方法 得 到 ， 直 接 相 似 性 评价 法 和 间接 评价 法 。 直 接 相似 性 
评价 法 的 操作 步骤 为 : 首先 把 评价 对 象 两 两 组 合 ， 再 组 合 被 访问 者 ， 从 而 直接 进行 相似 性 评 
价 。 间 接 评价 法 的 步骤 是 : 研究 人 员 先 根据 之 前 的 经 验 发 现 对 评价 影响 比较 大 的 属性 ， 再 由 
被 访问 者 评价 这 些 研 究 对 象 的 属性 ， 最 后 用 多 维 空间 的 坐标 来 表示 所 有 的 属性 ， 从 而 计算 出 
对 象 间 的 距离 。 该 距离 通常 运用 距离 变换 进行 计算 ?。 

多 维 尺度 分 析 有 很 多 方面 的 应 用 ， 比 如 品牌 形象 评价 。 品 牌 形象 评价 的 基本 思路 是 把 握 
消费 者 对 本 公司 和 竞争 者 的 品牌 认 知 的 差异 程度 ， 根 据 差异 的 程度 了 解 相对 于 竞争 对 手 本 公 
司 在 消费 者 心中 的 位 置 。 例 如 ， 针 对 广州 市 民 对 市 内 各 医院 的 评价 ， 包 括 对 专业 、 服 务 、 费 
用 、 方 便 等 方面 的 感知 评价 ， 利 用 多 维 尺度 分 析 得 到 空间 定位 图 ， 如 图 5.14 所 示 。 
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Dimension 1 

图 5.14 ”品牌 感知 空间 
结果 表明 ,广州 市 民 对 市 内 各 医院 的 感知 评价 大 致 可 以 分 为 三 类 : 第 一 类 属于 专业 性 
强 、 技 术 高 的 医院 ， 包 括 中 山 医院 、 省 人 民 医 院 、 省 中 医院 、 中 医药 大 学 医院 及 专科 医院 ; 
第 二 类 属于 费用 比较 合理 的 医院 ， 包 括 市 (区 ) 的 中 医院 、 人 民 医 院 及 妇幼 保健 医院 ; 第 三 


@® http://wenku.baidu.com/view/18d600d284254b35eefd34de.html 
@®@ http://blog.sina.com.cn/s/blog_6ce00d7bO100xasj.html 
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类 则 为 特点 不 明显 类 ， 包 括 红 十 字 会 医院 、 军 区 ( 部 队 ) 医院 ( 注 : 由 于 样本 数量 限制 ， 分 
院 、 同 类 型 医院 合并 分 析 ， 差 异性 有 所 平均 ， 结 论 仅 供 参考 ) 。 


运用 对 应 分 析 来 分 析 民 众 对 医院 的 感知 评价 ， 需 要 对 数据 进行 处 理 。 首 先 ， 把 以 行 和 列 
为 变量 的 交叉 表 转 换 为 对 应 分 析 图 ， 再 用 各 散 点 空间 位 置 关系 的 形式 表现 表格 中 包含 的 类 别 
关联 信息 。 上 述 数据 运用 对 应 分 析 后 呈现 如 图 5.15 所 示 @ 的 结果 。 
01 
0.08 了 
0.06 了 
二 中 中医 院 专科 医院 | | 
加 0.02 专业 @ 省 人 民 医院 | -| 本 
省 下 医院 委 用 6 民 辣 区 上 方便 
上 
上 0 。e 妇幼 保健 医院 | | EE 院 其 人 区 
PD -004 。 中 医药 大 学 医院 。 服务 | 
-0.06 J 
-0.08 - 
-0.1 
-01 -008 -006 -004 -002 0 © 00 004 006 008 0l 


Dimension 1 (74.2% ) 
图 5.15 ”对 应 分 析 图 

观察 上 述 两 种 方法 的 结果 分 析 图 ， 可 以 发 现 它们 的 区 别 : 多 维 尺度 空间 图 展现 的 是 各 医 
院 间 的 相对 位 置 ; 而 对 应 分 析 图 展现 的 是 各 医院 与 医院 专业 、 服 务 、 费 用 、 方 便 等 方面 的 相 
关 性 。 另 外 ， 通 过 这 两 种 方法 的 对 比 发 现 ， 多 维 尺度 分 析 得 到 的 是 行 变量 间 的 相似 性 或 者 差 
异性 ， 也 就 是 各 所 医院 间 的 相似 性 或 差异 性 。 而 对 应 分 析 得 到 的 是 行 变量 与 列 变量 之 间 的 相 
关 性 ， 比 如 行 变量 “中 山 医 院 ” 和 列 变量 “医院 专业 水 平 、 医 院 服务 、 医 院 费 用 等 ”之 间 的 
相关 性 。 也 就 是 说 ， 多 维 尺度 分 析 强 调 的 是 行 变量 间 的 关系 ， 对 应 分 析 强 调 的 是 行 变量 与 列 
变量 之 间 的 关系 。 


5.2.3 可视化 技术 


在 1987 年 根据 美国 国家 科学 基金 会 召开 的 “科学 计算 可 视 化 研讨 会 ”内 容 撰 写 的 一 份 报 
告 中 正式 提出 了 “可 视 化 ”一 词 ， 其 全 称 是 “科学 计算 可 视 化 ” ( Visualization in Scientific 
Computing， 缩 写 为 ViSC ) 。 数 据 可 视 化 是 指 对 大 型 数据 仓库 或 者 数据 库 的 数据 进行 探索 ， 从 
而 用 较为 直观 的 、 以 图 像 或 图 形 的 形式 来 表示 数据 所 产生 的 信息 。 这 样 ， 使 得 用 户 不 仅 能 通 
过 关系 型 数据 库 来 观察 和 分 析 数 据 ， 更 可 以 通过 直观 的 方式 看 到 数据 及 其 结构 关系 。 数 据 可 


名。 http:/blog.sina.com-cn/s/blog_6ce00d7b0100xasj-html 
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视 化 的 基本 思想 是 将 数据 库 中 的 数据 项 作为 图 元 元 素 ， 然 后 把 大 量 的 数据 集 构成 数据 图 形 ， 
以 使 用 户 对 数据 的 观察 和 分 析 更 深入 。 

数据 可 视 化 的 处 理 对 象 是 数据 ， 它 包含 两 个 分 支 : 处 理科 学 数据 的 科学 可 视 化 与 处 理 抽 
象 的 、 非 结构 化 信息 的 信息 可 视 化 。 作 为 数据 内 涵 信 息 的 展示 方法 和 人 机 交互 接口 ， 数 据 可 
视 化 已 成 为 数据 科学 的 核心 要 素 之 一 ， 面 对 大 规模 数据 ， 很 多 时 候 不 可 能 通过 直接 观察 数据 
本 身 或 对 数据 进行 简单 地 统计 分 析 后 就 能 得 到 数据 中 蕴涵 的 信息 。 例 如 ， 无 法 直接 通过 查看 
海量 的 服务 器 日 志 来 判断 海量 数据 ， 但 是 可 以 通过 可 视 化 将 其 变 成 形象 生动 的 图 形 ， 这 有 助 
于 对 数据 中 的 属性 、 关 系 进行 深入 地 研究 。 可 视 化 不 仅 可 以 作用 于 数据 科学 过 程 中 不 同 的 部 
分 ， 也 可 以 作为 一 种 人 机 交互 手段 ,贯穿 于 整个 数据 处 理 过 程 ， 如 图 5.16 所 示 。 


| 数据 组 织 与 管理 数据 分 析 与 挖 所 
| 数据 挖掘 
和 


| 数据 清洗 数据 整合 联机 分 析 
| | 数据 精简 与 集成 数据 存储 
探索 式 数据 
分 析 


图 5.16 ”可 视 化 作为 人 机 交互 手段 
数据 可 视 化 技术 是 利用 计算 机 的 巨大 处 理 能 力 及 计算 机 图 像 和 图 形 学 中 的 基本 算法 把 海 
量 的 数据 转换 为 静态 或 动态 的 图 像 或 图 形 ， 呈 现在 人 们 的 面前 。 数 据 可 视 化 技术 允许 通过 人 
机 交互 手段 控制 数据 的 提取 和 画面 的 显示 ， 控 掘 出 藏 于 数据 背后 不 可 见 的 现象 ， 为 人 们 分 析 
数据 、 理 解数 据 、 形 成 概念 、 找 出 规律 提供 强 有 力 的 手段 。 
数据 可 视 化 技术 主要 有 三 个 特点 : 
@ 交互 性 。 用 户 可 以 方便 地 以 交互 的 方式 管理 和 开发 数据 。 
@ 多 维 性 。 可 以 看 到 表示 对 象 或 事件 的 数据 的 多 个 属性 或 变量 ， 而 数据 可 以 按 其 每 一 维 
的 值 ， 将 其 分 类 、 排 序 、 组 合 和 显示 。 
@ 可 视 性 。 利 用 图 像 、 曲 线 、 二 维 图 形 、 三 维 体 和 动画 来 显示 数据 ， 并 对 其 模式 和 相互 
关系 进行 可 视 化 分 析 。 
数据 可 视 化 技术 包含 以 下 几 个 基本 概念 ?: 
@ 数据 空间 。 由 n 维 属性 和 m 个 元 素 组 成 的 数据 集 所 构成 的 多 维 信息 空间 。 
@ 数据 开发 。 指 利用 一 定 的 算法 和 工具 对 数据 进行 定量 的 计算 和 推演 。 
@ 数据 分 析 。 指 对 多 维 数据 进行 切片 、 分 块 、 旋 转 等 动作 来 剖析 数据 ， 从 而 能 从 多 角度 


加。 http:Wbaike.baidu.com/view/69231.htm?fr=aladdin 
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多 侧面 来 观察 数据 。 
@ 数据 可 视 化 。 指 将 大 型 数据 集中 的 数据 以 图 形 或 图 像 形式 展现 出 来 ， 并 利用 数据 分 析 
和 开发 工具 来 发 现 其 中 隐藏 信息 的 处 理 过 程 。 
除了 很 多 读者 已 经 熟悉 的 一 些 基本 的 显示 技术 ， 如 : 折线 图 、 柱 形 图 、 散 点 图 、 条 形 
图 、 面 积 图 、 圆 环 图 以 及 曲面 图 、 股 价 图 等 ， 随 着 科技 的 发 展 ， 针 对 数据 可 视 化 又 出 现 了 更 
多 的 新 技术 。 根 据 其 可 视 化 的 原理 不 同 ， 可 以 把 这 些 技术 划分 为 基于 几何 的 技术 、 基 于 图 标 
的 技术 、 面 向 像素 的 技术 、 基 于 层次 的 技术 、 基 于 图 像 的 技术 和 分 布 式 技术 等 类 型 。 下 面 介 
绍 其 中 几 项 主要 的 技术 。 
1. 面向 像素 技术 


面向 像素 技术 (pixel-oriented techniques ) 是 由 D.A.Keim 提 出 的 ， 并且 开发 了 VisDB 可 视 
化 系统 。 面 向 像素 技术 作为 海量 高 维 数据 可 视 化 技术 ， 其 基本 思想 是 每 一 个 数据 项 的 属性 映 
射 成 一 个 带 颜 色 的 屏幕 像素 ， 对 于 不 同 的 数据 属性 分 别 以 不 同 的 窗口 表示 ， 如 图 $.17 所 示 。 
能 在 屏幕 中 尽 可 能 多 地 显示 出 相关 的 数据 项 是 面向 像素 技术 主要 的 特点 ， 对 于 高 分 辩 率 的 显 
示 器 来 说 ， 显 示 的 数据 最 多 可 以 达到 10 人 数量 级 。 


attr.1 attr.2 attr.3 
有 
ea_ ea_ 数 
据 
的 
we 一 一 | 属 
性 
值 
attr.4 attr.5 attr.6 
(a) 某 一 个 像素 的 可 视 化 图 形 (b ) 大 量 数据 的 可 视 化 图 形 


图 5.17 ”可 视 化 6 维 数据 集 

面向 像素 的 可 视 化 方法 有 两 种 : 独立 于 查询 的 方法 和 基于 查询 的 方法 。 独 立 于 查询 的 方 
法 是 将 数据 库 中 的 数据 按照 从 上 到 下 (从 左 到 右 ) 的 次 序 一 列 一 列 ( 一行 一 行 ) 地 排列 显示 
出 来 ， 数 据 值 的 变化 范围 与 事先 固定 好 的 颜色 变化 范围 相对 应 ; 基于 查询 的 方法 是 根据 数据 
值 和 所 查询 的 要 求 的 符合 程度 来 匹配 不 同 的 颜色 。 针 对 每 一 个 数据 项 的 值 (av aa …, an ) 及 
查询 要 求 ( qi, dm, …, qs ) 通过 一 个 距离 函数 Distances ( di. d. …, d, ) 计算 每 个 属性 值 与 查询 
要 求 的 匹配 值 ， 得 到 每 个 数据 的 一 个 总 的 距离 值 d,,,， 以 反映 数据 项 与 查询 要 求 之 间 的 匹配 程 
度 。 总 的 距离 值 d,,, 越 小 ， 说 明 越 是 用 户 所 希望 看 到 的 数据 。 按 d,, 的 值 由 小 到 大 把 查询 的 数 
据 结 果 从 屏幕 的 中 央 螺 旋 地 向 四 周 展开 。 这 样 不 仅 能 看 到 要 查询 的 数据 ， 而 且 可 以 直观 地 了 
解数 据 从 近似 匹配 到 不 匹配 的 走势 。 但 是 面向 像素 技术 存在 一 些 缺 点 ， 如 大 量 像素 点 的 不 规 
则 分 布 ， 不 容易 进行 聚 类 分 析 等 。 

2. 基于 几何 的 技术 


目前 ， 基 于 几何 ( geometric techniques ) 的 可 视 化 技术 主要 包括 : 散 点 和 矩阵、 投影 一 截 
面 组 合 视图 技术 、 地 形 图 、 多 维 切片 和 平行 坐标 ， 它 通过 几何 画 法 或 几何 投影 技术 来 展现 
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数据 库 中 的 数据 ， 通 过 线 或 者 折线 来 表示 数据 各 变量 的 联系 。 其 中 最 早 提出 以 二 维 形式 表示 n 
维 数据 的 可 视 化 技术 之 一 是 平行 坐标 。 平行 坐标 主要 用 于 对 高 维 几何 和 多 元 数据 的 可 视 化 ， 其 
基本 思想 是 使 用 相互 平行 且 等 距 的 坐标 轴 将 K 维 空间 降 维 映射 成 两 维 来 显示 。 每 一 根 折线 表 
示 一 个 数据 项 ， 从 图 5.18 可 以 看 到 折线 与 每 个 坐标 轴 都 有 一 个 交点 ， 这 就 是 该 数据 项 在 维 上 
对 应 的 值 。 


attr.1 attr.2 attr.3 attr.4 attr.5 attr.6 
(a ) 5 个 6 维 数据 的 平行 坐标 图 示 (b ) 平行 坐标 法 开发 的 大 型 数据 集 
图 5.18 平行 坐标 示例 

可 以 借助 平行 坐标 法 开发 系统 ， 具 有 代表 性 的 系统 包括 Parallel Visual Explorer ( IBM ) 、 
XMDV ( Matt Ward ) 、AVS/Express ( van Wijk ) 等 。 其 最 大 的 优点 是 具有 良好 的 数学 基础 ， 
而 且 射 影 几 何 解释 和 对 偶 特性 有 助 于 进行 可 视 化 数据 分 析 。 对 于 大 型 的 数据 集 它 能 反映 出 各 
维 属 性 间 的 关系 以 及 数据 在 各 维 属性 之 间 的 走向 趋势 ， 对 于 小 型 的 数据 集 用 户 能 通过 二 维 平 
面 看 到 所 有 数据 的 n 维 属性 。 平 行 坐标 的 优点 是 表达 的 维 数 决定 于 屏幕 的 水 平 宽度 ， 而 不 需要 使 
用 矢量 或 者 其 他 可 视图 标 。 但 是 大 量 的 交 迭 线 使 得 折线 密度 增加 ， 层 次 不 清 ， 用 户 很 难 识别 ， 
此 时 可 以 通过 层次 的 方式 组 织 数据 集 ， 引 入 交互 手段 ， 以 分 层 显 示 的 方法 来 解决 这 一 问题 。 

3. 基于 图 标的 技术 

基于 图 标 (icon-based techniques ) 技术 又 称 图 标 显示 技术 ， 它 的 基本 思想 是 定制 一 些 称 
为 图 标 〈 和 矩阵 、 椎 体 、 箭 头 ) 的 几何 对 象 ， 然 后 将 每 一 个 多 维 数据 项 映射 成 为 一 个 对 应 的 图 
标 ， 并 按照 一 定 顺序 排列 这 些 图 标 。 图 标的 各 项 属性 ， 如 大 小 、 颜 色 、 形 状 等 均 对 应 于 数据 
项 的 维 。 基 于 图 标的 可 视 化 技术 包括 枝 形 图 、 形 状 编码 、 彩 色 图 标 等 ， 这 种 技术 适用 于 那些 
在 二 维 平面 上 具有 良好 展开 属性 的 数据 集 。 

枝 形 图 方法 ( Stick Figures ) 是 其 中 的 基本 方法 
之 一 , 它 的 基本 思想 是 用 同一 棵 树 的 枝 表示 多 个 变 
量 ， 每 一 个 树枝 表示 一 个 变量 。 枝 形 图 首先 选取 多 维 
属性 中 的 两 种 属性 作为 基本 的 X-Y 平 面 坐标 轴 ， 在 此 
平面 上 利用 小 树枝 的 长 度 或 角度 的 不 同 代表 其 他 属性 
值 的 变化 。 例 如 图 5.19 所 示 的 两 个 数据 点 ， 它 们 的 左 
边 的 二 维 属性 含有 相同 的 数据 值 ， 而 右边 的 二 维 属性 
的 数据 值 则 不 相同 。 图 5.19 树枝 图 法 两 个 数据 点 的 表示 
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4. 基于 层次 的 可 视 化 技术 


基于 层次 ( hierarchinal techniques ) 的 可 视 化 技术 主要 针对 数据 库 系 统 中 具有 层次 结构 的 
数据 信息 ， 它 的 基本 思想 是 将 k 维 数据 空间 划分 为 若干 子 空间 ， 对 这 些 子 空间 仍 以 层次 结构 的 
方式 组 织 并 通过 图 形 方式 表示 出 来 。 基 于 层次 的 可 视 化 方法 多 利用 树 形 结构 ， 这 样 可 以 直接 
应 用 于 具有 层次 结构 的 数据 ， 也 可 以 对 数据 变量 进行 层次 划分 ， 不 同 层次 表示 不 同 变量 值 。 
基于 层次 的 可 视 化 技术 包括 多 维 堆积 图 、 树 图 、 锥 型 树 等 方法 。 树 图 ( Treemap ) 是 其 中 的 一 
种 代表 技术 。 把 图 5.20( a ) 所 示 的 树 形 结构 数据 在 图 $.20 ( b ) 中 以 树 图 的 形式 表示 出 来 。 图 
中 每 一 个 结 点 都 有 名 称 和 数值 大 小 ， 父 结 点 是 各 个 子 结 点 大 小 的 总 和 。 


了 2 
pp c6 dl0 并 
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(a) (b) 
图 5.20 一 个 层次 结构 的 树 图 显示 范例 
树 图 是 可 视 化 层次 结构 数据 的 重要 方法 ,适合 于 大 量 的 层次 数据 集 。 它 的 基本 思想 是 依 
据 数 据 的 层次 结构 将 屏幕 空间 划分 成 若干 个 矩形 子 空间 ， 子 空间 大 小 由 结 点 大 小 决定 ; 树 图 
层次 则 依据 根 结 点 到 叶 结 点 的 顺序 ， 沿 水 平和 垂直 依次 转换 ， 开 始 将 空间 水 平 划 分 ， 下 一 层 
将 得 到 的 子 空间 垂直 划分 ， 再 下 一 层 又 是 水 平 划分 ， 依 此 类 推 。 树 图 允许 对 每 一 个 划分 的 矩 
形 进 行 相应 的 颜色 匹配 或 给 予 必要 的 说 明 。 
基于 层次 的 可 视 化 技术 开发 的 系统 主要 有 : Hyperbolic Trees ( Xerox ) 、Info Cube 
(Sony ) 、Elastic Windows ( HCIL-Maryland ) 、TreeMap ( HCIL-Maryland ) 等 。 
5. 其 他 的 数据 可 视 化 技术 
数据 可 视 化 还 有 很 多 其 他 的 技术 和 方法 。 比 如 ，HD-Eye 算 法 结合 数据 挖掘 技术 ， 先 将 数 
据 分 徐 ， 再 对 感 兴 趣 的 簇 可 视 化 ; DVET ( Data Visualization Environment Tool ) 系统 利用 虚拟 
现实 技术 展示 数据 空间 和 空间 上 的 点 (数据 ) ; Table Lens 系 统 虽 然 仍 以 表 的 形式 表现 数据 ， 
但 是 它 以 图 示 法 代替 了 表 中 的 数字 ， 并 且 给 出 观察 的 视点 ， 易 于 用 户 选择 和 操纵 数据 表 中 的 
区 域 ，Xgobi 系 统 强调 动态 和 交互 技术 ， 用 户 能 同时 以 不 同 的 可 视 化 方法 处 理 相 同 的 数据 。 另 
外 ， 还 有 更 多 新 的 方法 和 技术 正在 被 研究 和 开发 ， 如 3D 技 术 、 基 于 图 形 技术 等 。 
综 上 所 述 ， 为 了 使 读者 更 加 详细 地 了 人 解 不 同 数据 可 视 化 技术 的 特性 ， 表 5.1 对 各 种 可 视 化 
技术 从 数据 特性 、 任 务 特性 和 技术 特性 三 方面 做 出 了 对 比 。 
表 5.1 ”可 视 化 技术 比较 图 


测试 项 | 聚 类 多 元 变量 | 数据 项 | 分 类 | 可 视 化 | 学 习 
分 析 个 数 个 数 数据 重 垒 曲线 

优 优 良 良 较 差 齐 优 

良 良 较 差 中 中 良 良 

优 优 良 良 较 差 率 良 

良 良 良 良 较 差 ja 

Ei 优 优 较 差 审 差 
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( 续 表 ) 
多 元 可 视 化 学 习 

到 类 | 分 析 重生 | 曲线 
中 中 较 差 中 
中 较 差 良 较 差 
中 较 差 良 较 差 
良 良 优 良 
良 良 优 较 差 
良 良 中 中 
良 中 中 
良 良 良 
中 | 中 中 | 入 
优 良 良 良 


和 5.3 常用 分 析 工 具 介 绍 


“ 工 欲 善 其 事 ， 必 先 利 其 器 。” 要 学 习 数 据 分 析 ， 先 要 掌握 数据 分 析 的 基本 软件 。 前 
面 讲 到 了 一 些 跟 统计 相关 的 数据 分 析 方 法 ， 除 此 之 外 涉及 到 的 高 级 数据 分 析 都 与 数据 挖掘 
相关 ， 最 后 通过 可 视 化 技术 来 展现 数据 。 本 节 把 常用 的 分 析 工 具 分 为 三 大 类 来 介绍 ， 主 要 
包括 Excel、SPSS、SAS、Eviews、MATLAB 以 及 前 面 提 到 的 R 语 言 等 ; 数据 挖掘 工具 主要 包 
括 Weka、QUEST、MineSet 、Clementine 、Rapidminer、Mahout 、Darwin 、Enterprise Miner、 
Intelligent Miner、DBMiner 等 ， 通 过 这 些 工 具 可 以 在 数据 集 上 进行 深度 分 析 ; 可 视 化 设计 工具 
主要 包括 D3、Protovis 、DataWatch 、Tableau 、Google Chart 等 。 这 些 工具 仍 在 迅速 发 展 ， 不断 
更 新 优化 ， 本 节 主 要 介绍 这 三 大 类 中 典型 的 工具 。 


5.3.1 统计 分 析 工 具 


1. Excel 


Microsoft Excel 是 微软 公司 研发 的 办 公 软 件 Microsoft Office 的 组 件 之 一 ， 是 Microsoft 为 
Windows 和 Apple Macintosh 环 境 编写 的 一 款 电子 表格 软件 。Excel 是 微软 办 公 套 装 软件 的 一 个 
重要 的 组 成 部 分 ， 它 可 以 进行 各 种 数据 的 处 理 、 分 析 并 用 于 辅助 决策 ,广泛 地 应 用 于 管理 和 
统计 及 财经 、 金 融 、 零 售 等 众多 领域 。Excel 是 一 个 非常 容易 入 门 的 软件 。 使 用 Excel 进 行 数据 
分 析 ， 简 单 的 分 析 运用 里 面 最 基础 的 运算 和 图 表 的 制作 就 可 以 了 ， 稍 微 复杂 一 点 的 分 析 工 作 
可 能 用 到 函数 和 数据 透视 表 ，VBA 和 宏 是 其 数据 分 析 的 高 级 应 用 。 或 者 可 以 下 载 XLstat 插 件 
(一 个 统计 分 析 插 件 ) ， 可 以 完成 大 部 分 SPSS 数 据 分 析 功 能 。 

在 使 用 分 析 工 具 之 前 ， 首 先 得 安装 Excel 的 数据 分 析 功 能 ， 默 认 情 况 下 ，Excel 是 不 安装 这 
个 扩展 功能 的 ， 安 装 步骤 如 下 。 

(1 ) 鼠标 指向 Office 按 钮 ， 然 后 单 击 “Excel 选 项 ”。 

(2 ) 在 Excel 选 项 对 话 框 中 找到 “加 载 项 ”， 在 管理 列表 框 中 选择 “Excel 加 载 项 ”， 然 
后 单 击 “ 转 到 ”。 
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(3 ) 选择 “分 析 工 具 库 ” 和 “分 析 工 具 库 -VBA”, 单 击 “确定 ”。 
安装 完成 后 ， 就 可 以 “数据 ”板块 看 到 “数据 分 析 ” 功 能 了 。 
2. SPSS 


SPSS 由 美国 斯 坦 福 大 学 的 三 位 研究 生 Norman H. Nie、C. Hadlai (Tex ) Hull 和 Dale H. 
Bent 于 1968 年 成 功 的 开发 ， 它 的 全 称 是 “Statistical Product and Service Solutions” ， 中 文 名 为 
“统计 产品 与 服务 解决 方案 ”， 是 世界 上 最 早 的 统计 分 析 软 件 ， 同 时 成 立 了 SPSS 公 司 。2009 
年 7 月 28 日 ，IBM 公 司 宣布 用 12 亿 美元 现金 收购 统计 分 析 软 件 提供 商 SPSS 公 司 。 最 初 SPSS 软 
件 的 全 称 为 “社会 科学 统计 软件 包 ” ( Solutions Statistical Package for the Social Sciences ) ， 
但 是 随 着 SPSS 产 品 服务 领域 的 扩展 和 服务 深度 的 增加 ，SPSS 公 司 已 于 2000 年 正式 将 全 称 更 改 
为 “统计 产品 与 服务 解决 方案 ”。 这 是 IBM 公 司 推出 的 一 系列 用 于 统计 学 分 析 运 算 、 数 据 挖 
据 、 预 测 分 析 和 决策 支持 任务 的 软件 产品 及 相关 服务 的 总 称 。 目 前 有 Windows 和 Mac OS X 等 
版 本 ,标志 着 SPSS 的 战略 方向 做 出 了 重大 调整 。 

SPSS 的 数据 管理 和 输入 方法 与 Excel 很 相似 ， 数 据 接口 基本 通用 ， 可 以 很 方便 地 从 数据 库 
中 读 取 数 据 。 其 内 含 模型 包括 常用 的 、 较 为 成 熟 的 统计 分 析 模 型 ， 完 全 可 以 满足 非 统计 专业 
人 士 的 工作 需要 。 另 外 ，SPSS 的 输出 结果 十 分 直观 、 漂 亮 ， 很 多 都 是 以 图 表 的 形式 输出 ， 存 
储 时 则 使 用 SPO 格 式 ， 且 可 以 转 存 为 HTML 格 式 和 文本 格式 。 对 于 熟悉 编程 运行 方式 的 用 户 ， 
可 直接 使 用 语句 生成 窗口 ， 只 需要 在 菜单 中 选择 好 各 个 选项 ， 然 后 粘贴 就 可 以 自动 生成 标准 
的 SPSS 程 序 。SPSS 可 以 直接 读 取 Excel 及 DBF 数 据 文件 ， 且 它 的 分 析 结 果 直 观 、 清 晰 、 易 学 易 
用 。 现 已 推广 到 多 种 操作 系统 的 计算 机 上 ， 极 大 地 方便 了 中 、 高 级 用 户 。 它 成 为 国际 上 最 有 
影响 的 三 大 统计 软件 之 一 0。 

SPSS 的 基本 功能 包括 数据 管理 、 统 计 分 析 、 图 表 分 析 以 及 输出 管理 等 。 统 计 分 析 的 内 
容 包括 描述 性 统计 、 均 值 比 较 、 参 数 检验 、 方 差分 析 、 非 参数 检验 、 一 般 线 性 模型 、 相 关 分 
析 、 回 归 分 析 、 对 数 线性 模型 、 聚 类 分 析 、 生 存 分 析 、 数 据 简化 、 时 间 序 列 分 析 、 多 维 尺度 
分 析 、 多 重 响应 等 多 个 大 类 。 每 类 中 又 有 多 种 专项 的 统计 方法 ， 例 如 回归 分 析 中 又 分 线性 回 
归 分 析 、 非 线性 回归 、 曲 线 估 计 、Logistic 回 归 、Probit 回 归 、 加 权 估计 、 两 阶段 最 小 二 乘法 等 
多 个 统计 过 程 ， 而 且 每 个 过 程 中 又 允许 用 户 选择 不 同 的 方法 及 参数 。 对 于 分 析 结 果 的 展现 ， 
SPSS 有 专门 的 绘图 系统 ， 可 以 根据 数据 和 用 户 的 要 求 绘制 各 种 图 形 。 

SPSS 提 供 了 三 种 运行 方式 : 完全 窗口 菜单 运行 方式 、 程 序 运行 方式 和 批 处 理 方 式 。 完 
全 窗口 菜单 方式 非常 适合 非 专业 人 士 使 用 ， 不 需要 编程 就 可 以 使 用 。 程 序 运行 方式 和 批 处 理 
方式 则 是 从 使 用 者 特殊 的 分 析出 发 ， 需 要 掌握 SPSS 编 程 语法 ， 对 使 用 者 的 要 求 较 高 。 目 前 ， 
SPSS 在 我 国 的 社会 科学 、 自 然 科 学 的 各 个 领域 发 挥 了 巨大 作用 。 该 软件 还 可 以 应 用 于 经 济 
学 、 数 学 、 统 计 学 、 物 流 管理 、 医 学 、 生 物 学 、 心 理学 、 地 理学 、 体 育 、 农 业 、 林 业 、 市 场 
营销 等 领域 。 

3. SAS 

SAS 最 早 由 北 卡 罗 来 纳 大 学 的 两 位 生物 统计 学 研究 生 开 发 ， 系 统 全 称 为 “Statistics 


人 http:/baike.baidu.com/view/130328.htm?fromtaglist. 
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Analysis System” ， 于 1976 年 正式 推出 。SAS 主 要 用 于 大 型 集成 信息 系统 的 决策 支持 ， 最 初 它 
的 功能 仅 限 于 统计 分 析 ， 至 今 ， 它 的 重要 组 成 部 分 和 核心 功能 也 仍 是 统计 分 析 功 能 。 全 世界 
接近 三 万 家 机 构 采 用 SAS 软 件 进行 分 析 ， 它 的 直接 用 户 已 经 超过 三 百 万 人 ， 被 称 为 统计 软件 
界 的 巨 无 霜 。 

SAS 系 统 是 由 多 个 功能 模块 组 合 而 成 的 组 合 软件 系统 ， 其 中 BASE SAS 模 块 是 SAS 系 统 最 
基本 的 、 最 核心 的 部 分 。 它 的 功能 很 强大 ， 主 要 负责 数据 管理 任务 ， 并 管理 用 户 使 用 环境 ， 
处 理 用 户 语言 ， 还 是 SAS 系 统 的 中 央 调 度 室 ， 调 用 其 他 SAS 模 块 和 产品 。 它 不 仅 能 够 单独 存 
在 ， 也 能 够 与 其 他 产品 或 模块 共同 构成 一 个 完整 的 系统 。 

SAS 系 统 具 有 灵活 的 功能 扩展 接口 和 强大 的 功能 模块 ， 在 BASE SAS 的 基础 上 ， 还 可 以 通 
过 增加 不 同 的 模块 来 增加 不 同 的 功能 ， 如 SAS/STAT ( 统计 分 析 模 块 ) 、SAS/GRAPH ( 绘图 模 
块 ) 、SAS/QC (质量 控制 模块 ) 、SAS/OR ( 运筹 学 模块 ) 、SAS/ETS ( 经 济 计量 学 和 时 间 序 
列 分 析 模 块 ) 、SAS/IML ( 交互 式 矩 阵 程序 设计 语言 模块 ) 、SAS/AF ( 交互 式 全 屏幕 软件 应 
用 系统 模块 ) SAS/FSP ( 快速 数据 处 理 的 交互 式 菜单 系统 模块 ) 等 。 在 数据 结果 展现 方面 ， 
SAS 也 有 一 个 智能 型 绘图 系统 ， 不 仅 能 绘 各 种 统计 图 ， 还 能 绘 出 地 图 。SAS 提 供 多 个 统计 程 
序 ， 每 个 程序 均 含有 多 种 选项 ， 用 户 还 可 以 通过 对 数据 集 进行 加 工 ， 实 现 更 为 复杂 的 统计 分 
析 。 此 外 ，SAS 还 提供 各 类 概率 分 析 函 数 、 分 位 数 函数 、 样 本 统计 函数 和 随机 数 生成 函数 ， 
方便 用 户 实现 特殊 的 统计 要 求 ?。 

4. Eviews 


Eviews 是 Econometrics Views 的 缩写 ， 直 译 为 计量 经 济 学 观察 通常 称 为 计量 经 济 学 软件 
包 。 它 主要 是 采用 计量 经 济 学 方法 与 技术 对 社会 经 济 关 系 与 经 济 活动 的 数量 规律 进行 “ 观 
察 ”。 计 量 经 济 学 研究 的 核心 是 收集 资料 、 设 计 模 型 、 估 计 模 型 、 检 验 模型 、 应 用 模型 ( 结 
构 分 析 、 经 济 预 测 、 政 策 评价 ) 。 该 软件 是 专门 运行 在 Windows 环 境 下 从 事 数据 分 析 、 回 归 
分 析 和 预测 的 工具 。 利 用 Eviews 可 以 迅速 地 从 数据 中 寻找 出 统计 关系 ,并 用 得 到 的 关系 去 预 
测 数 据 的 未 来 值 ?。 

Eviews 是 计量 经 济 学 软件 中 的 世界 性 领导 软件 。Eviews 采 用 了 革新 的 图 表 界 面 和 准确 的 
分 析 引 擎 工具 ， 使 得 EViews 具 有 强大 、 灵 活 和 容易 使 用 的 功能 。Eviews 的 应 用 范围 包括 : 宏 
观 经 济 预测 、 金 融 分 析 、 科 学 实验 数据 分 析 与 评估 、 销 售 预测 、 仿 真 和 成 本 分 析 等 。 

5. MATLAB 


MATLAB 是 matrix&laboratory 两 个 词 的 组 合 ， 意 为 矩阵 实验 室 ( 矩阵 工厂 ) 。 是 由 美国 
MathWorks 公 司 出 品 的 商业 数学 软件 ， 主 要 包括 MATLAB 和 Simulink 两 大 部 分 。 主 要 面向 科学 
计算 、 可 视 化 以 及 交互 式 程序 设计 的 高 科技 计算 环境 ， 被 用 于 算法 开发 、 数 据 可 视 化 、 数 据 
分 析 以 及 数值 计算 等 场合 。 

6. Stata 


Stata 是 Statacorp 于 1985 年 开发 的 一 套用 于 数据 分 析 、 数 据 管理 以 及 绘制 专业 图 表 的 完整 
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及 整合 性 的 软件 。 它 提供 了 一 系列 的 功能 ， 包 含 线性 混合 模型 、 均 衡 重 复 反 复 及 多 项 式 普罗 
比 模式 。 

最 新 版 本 的 Stata 采 用 最 具 亲 和 力 的 窗口 接口 ， 当 用 户 自行 编写 程序 时 ， 软 件 可 以 提供 具 
有 直接 命令 式 的 语法 。 另 外 ，Stata 还 提供 完整 的 使 用 手册 ， 包 含 样本 的 建立 、 解 释 、 模 型 与 
语法 、 文 献 等 超过 一 万 余 页 的 文档 。 

Stata 的 功能 模块 包括 三 个 部 分 。 

@@ 统计 功能 : Stata 的 统计 功能 很 强 ， 除 了 传统 的 统计 分 析 方法 外 ， 还 包括 近 20 年 发 展 起 
来 的 新 方法 ， 如 指数 与 Weibull 回 归 ，Cox 比 例 风 险 回归 ， 多 类 结果 与 有 序 结果 的 logistic 
回归 ，Poisson 回 归 ， 负 二 项 回归 及 广义 负 二 项 回归 ， 随 机 效应 模型 及 矩阵 运算 等 。 

@ 作 图 功能 : 主要 提供 八 种 基本 图 形 的 制作 ， 和 包括 直方 图 ( histogram ) 、 条 形 图 
(bar) 、 百 分 条 图 ( oneway ) 、 百 分 圆 图 ( pie ) 、 散 点 图 ( twoway ) 、 散 点 图 矩阵 
( matrix ) 、 星 形 图 ( star ) 和 分 位 数 图 。 对 这 些 图 形 的 巧妙 应 用 ， 能 够 满足 绝 大 多 数 
用 户 作 图 的 要 求 。 在 一 些 非 绘图 命令 中 ,还 提供 了 专门 绘制 某 种 图 形 的 功能 ， 例 如 ， 
在 生存 分 析 中 提供 了 绘制 生存 曲线 图 ， 在 回归 分 析 中 提供 了 残 差 图 等 。 

@ 程序 设计 功能 : Stata 不 仅 是 一 个 统计 分 析 软 件 ， 而 且 为 用 户 二 次 开发 提供 了 很 强 的 程 
序 设计 功能 。 这 为 用 户 提供 了 一 个 广阔 的 开发 应 用 的 天 地 ， 用 户 可 以 充分 发 挥 自己 
的 才能 ， 熟 练 应 用 各 种 技巧 ， 真正 做 到 随心 所 欲 地 完成 需要 的 工作 。 事 实 上 ，Stata 的 
ado 文 件 ( 高 级 统计 部 分 ) 就 是 采用 Stata 提 供 的 语言 编写 的 。 

Stata 的 分 析 能 力 很 强大 ， 甚 至 在 许多 方面 远 远 超过 了 SPSS 和 SAS。Stata 计 算 速 度 极 快 ， 
因为 它 在 分 析 时 是 将 数据 全 部 读 入 内 存 而 不 是 磁盘 中 ， 在 计算 全 部 完成 后 才 和 磁盘 交换 数 
据 。Stata 也 可 采用 命令 行 方 式 来 操作 ,但 使 用 上 比 SAS 简 单 很 多 。 其 生存 数据 分 析 、 纵 向 数 
据 分 析 等 模块 的 功能 很 出 色 ， 大 大 超过 了 SAS。 另外， 用 Stata 绘 制 的 分 析 结 果 图 形 相 当 精 
美 ， 很 有 特色 。Stata 在 全 球 范围 内 被 广泛 应 用 于 企业 和 学 术 机 构 中 ,许多 使 用 者 是 工作 在 特 
定 研究 领域 一 线 的 人 员 ， 比 如 经 济 学 、 社 会 学 、 政 治学 及 流行 病 学 等 领域 ?。 


5.3.2 ”数据 挖掘 工具 


1. Weka 


Weka ( Waikato Environment for Knowledge Analysis ) 的 全 名 是 怀 卡 托 智能 分 析 环 境 ，Weka 
的 主要 开发 者 来 自 新 西 兰 的 一 所 大 学 The University of Waikato。 它 是 一 款 免费 的 ， 非 商业 化 
的 ， 基 于 Java 环 境 下 开源 的 机 器 学 习 以 及 数据 挖掘 软件 。Weka 系 统 得 到 了 广泛 的 认可 ， 被 淮 
为 数据 挖掘 和 机 器 学 习 历 史上 的 里 程 碑 ， 是 现今 最 完备 的 数据 挖掘 工具 之 一 (已 有 11 年 的 发 
展 历史 ) ， 每 月 下 载 次 数 已 逾 万 次 。 

Weka 作 为 一 个 公开 的 数据 挖掘 工作 平台 ,集合 了 大 量 能 承担 数据 挖掘 任务 的 机 器 学 习 
算法 ， 高 级 用 户 可 以 通过 Java 编 程 和 命令 行 来 调用 其 分 析 组 件 。 同 时 ，Weka 也 为 普通 用 户 
提供 了 图 形 化 界面 ， 称 为 Weka KnowledgeFlow Environment 和 Weka Explorer。Weka 与 R 语 言 
比 ， 虽 然 在 统计 分 析 方 面 较 弱 ,但 在 机 器 学 习 方 面 要强 得 多 ， 它 包括 对 数据 进行 预 处 理 ， 分 
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类 ， 回 归 、 聚 类 、 关 联 规则 以 及 在 新 的 交互 式 界面 上 的 可 视 化 。 可 以 在 Weka 论 坛 里 (http: 
//weka.sourceforge.net/wiki/index.php/Related_Projects ) 找到 很 多 扩展 包 ， 比 如 文本 挖掘 、 可 视 
化 、 网 格 计算 等 。 很 多 其 他 开源 数据 挖掘 软件 也 支持 调用 Weka 的 分 析 功 能 。 

2. QUEST 


QUESTO 是 一 个 多 任务 数据 挖掘 系统 ， 由 IBM 公 司 Almaden 研 究 中 心 开发 。 该 系统 提供 了 
高 效 的 数据 开采 基本 构件 可 用 于 新 一 代 决 策 支 持 系 统 的 应 用 开发 。 

QUEST 具 有 以 下 特点 。 

@ 具有 查 全 性 的 算法 ， 能 找 出 所 有 满足 指定 类 型 的 模式 。 

@ 各 种 开采 算法 都 具有 近似 线性 (O (n) ) 的 计算 复杂 度 ， 可 适用 于 任意 大 小 的 数据 库 。 

@@ 为 各 种 发 现 功能 设计 了 相应 的 并 行 算法 。 

@ 提供 了 专门 在 大 型 数据 库 上 进行 各 种 开采 的 功能 ， 包 括 序 列 模式 发 现 、 关 联 规则 发 
现 、 决 策 树 分 类 、 时 间 序 列 聚 类 、 递 增 式 主动 开采 等 。 

3. MineSet 


MineSet 是 一 个 多 任务 数据 挖掘 系统 ， 由 Standford 大 学 和 SGI 公 司 联合 开发 。 它 将 可 视 化 工 
有 具 和 多 种 数据 挖掘 算法 结合 起 来 ， 为 用 户 在 挖掘 、 理 解 隐藏 在 数据 背后 的 大 量 知 识 或 规律 时 
提供 更 加 实时 、 直 观 的 帮助 。 
MineSet 系 统 具 有 如 下 特点 。 
@ 先进 的 可 视 化 展现 方法 。 为 使 用 户 能 够 用 不 同 的 可 视 化 工具 对 同一 个 挖掘 结果 以 多 种 
形式 表示 ，MineSet 中 使 用 了 6 种 可 视 化 工具 来 表现 数据 和 知识 。 
@@ 多 种 数据 转换 功能 。 在 进行 数据 挖 气 前 ， 可 对 不 必要 的 数据 项 进行 别 除 ， 可 对 数据 进 
行 统计 、 集 合 、 分 组 ， 转 换 数据 类 型 ， 构 造 表达 式 ， 然 后 由 已 有 的 数据 项 生成 新 的 数 
据 项 ， 以 及 对 数据 进行 采样 等 。 
@ 多 种 数据 挖 气 模 式 。 主 要 包括 关联 规则 、 分 类 器 、 聚 类 归 类 、 判 断 列 重要 度 、 回 归 模 
@ 支持 多 种 关系 数据 库 。 可 以 借助 SQL 命令 执行 查询 ， 也 可 直接 从 Oracle、Informix、 
Sybase 的 表 中 读 取 数 据 。 
@ 支持 国际 字符 。 
@ 可 直接 发 布 到 Web。 
@ 操作 简单 。 
4. Clementine 


Clementine 是 SPSS 发 行 的 一 种 数据 挖掘 工具 ， 也 称 为 “IBM SPSS Modeler”。 最 早 是 由 
ISL ( Intergral Solutions Ltd. ) 公司 开发 的 一 款 数 据 挖掘 产品 ， 后 来 该 公司 被 SPSS 公 司 收购 ， 
之 后 SPSS 公 司 对 该 产品 进行 一 系列 的 技术 改造 和 优化 。Clementine 是 采用 客户 /服务 器 架构 
的 产品 ， 既 可 以 单机 运行 ， 也 能 够 连接 到 网 络 上 的 Clementine Server。 此 工具 结合 了 Neural 
Networks 、Association Rules 及 Rule-induction Techniques 等 具 多 种 图 形 使 用 接口 的 分 析 技 术 ， 
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使 得 Clementine 不 仅 具有 分 析 功能 ， 还 能 够 提供 可 使 用 的 简单 的 可 视 化 程序 环境 ，Clementine 
的 数据 可 视 化 能 力 包括 散布 图 、 平 面 图 及 Web 分 析 。Clementine 包 含 flat file 以 及 关系 型 数据 库 
(经 由 ODBC ) ,资料 存 取 能 力 强大 ， 而 且 为 用 户 提供 了 大 量 的 人 工 知 能、 统计 分 析 的 模型 
(神经 网 络 ， 聚 类 分 析 、 关 联 分 析 、 因 子 分 析 等 ) ， 并 用 基于 图 形 化 的 界面 为 用 户 认识 、 了 
解 、 熟 悉 这 个 软件 提供 了 极 大 的 方便 。 此 外 ， 它 能 够 与 SPSS 统 计 功 能 有 更 多 的 整合 ， 数 据 处 
理 也 更 加 灵活 好 用 。 

Clementine 的 设计 思想 是 用 简单 的 方式 进行 数据 挖掘 ， 尽 量 屏蔽 数据 挖掘 算法 的 复杂 性 以 
及 软件 操作 的 繁琐 性 ， 使 数据 挖掘 人 员 将 更 多 的 精力 放 在 使 用 先进 的 挖掘 技术 解决 商业 问题 
而 不 是 操作 软件 本 身 。 

作为 一 个 数据 挖掘 平台 ，Clementine 结 合 商业 经 验 能 够 快速 建立 预测 性 模型 ， 进 而 应 用 到 
商业 活动 中 ， 帮 助 用 户 改进 决策 过 程 。 与 其 他 数据 挖掘 工具 相 比 ，Clementine 强 大 功能 的 数据 
挖掘 算法 ,使 数据 挖掘 贯穿 业务 流程 的 始终 ， 在 缩短 投资 回报 周期 的 同时 极 大 地 提高 了 投资 
回报 率 ， 而 不 是 仅 注 重 模型 的 外 在 表现 ， 忽 略 数据 挖掘 在 整个 业务 流程 中 的 应 用 价值 。 

5. Rapidminer 


RapidMiner 是 世界 上 领先 的 数据 挖掘 解决 方案 ， 在 非常 大 的 程度 上 有 着 先进 技术 。 它 
的 数据 挖掘 任务 涉及 范围 广泛 ， 包括 各 种 数据 艺术 ， 能 简化 数据 挖掘 过 程 的 设计 和 评价 。 
RapidMiner 以 前 称 为 YALE， 它 提供 了 图 形 化 界面 ， 采 用 类 似 Windows 资 源 管理 器 中 的 树 状 结 
构 来 组 织 分 析 组 件 ， 树 上 每 个 节点 表示 不 同 的 运算 符 。 它 是 基于 Java 开 发 ， 用 Weka 来 构建 
的 ， 即 它 可 以 调用 Weka 中 的 各 种 分 析 组 件 。 耶 鲁 大 学 已 成 功 地 将 其 应 用 在 各 种 领域 ， 主 要 包 
括 数据 流 挖掘 ， 文 本 挖掘 ， 多 媒体 挖掘 ， 分 布 式 数据 挖掘 和 集成 开发 。 

Rapidminer 具 有 如 下 特点 。 

@ 免费 提供 数据 挖掘 技术 和 库 。 

@ 全 部 采用 Java 代 码 ( 可 运行 在 大 部 分 操作 系统 上 ) 。 
数据 挖 气 过 程 简单 ， 强 大 和 直观 。 
内 部 XML 保证 了 标准 化 的 格式 来 表示 交换 数据 挖 气 过 程 。 
可 以 用 简单 脚本 语言 自动 进行 大 规模 进程 调用 。 
多 层次 的 数据 视图 ， 确 保 数据 的 有 效 和 透明 。 
图 形 用 户 界 面 的 互动 原型 。 
命令 行 ( 批 处 理 模 式 ) 自动 进行 大 规模 应 用 。 
支持 Java API ( 应 用 编程 接口 ) 。 
简单 的 插件 和 推广 机 制 。 
@ 强大 的 可 视 化 引擎 ， 提 供 了 许多 尖端 的 高 维 数 据 的 可 视 化 建 模 。 
@ 拥有 400 多 个 数据 挖掘 运 营 商 支持 。 


6. DBMiner 
DBMiner? 以 前 称 作 DBLeam， 它 是 一 个 多 任务 数据 挖 扎 系统， 由 加 拿 大 Simon Fraser 大 学 
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开发 。DBMiner 系 统 具 有 如 下 特点 。 
@ 将 多 种 数据 挖 握 技 术 综 合 。 如 统计 分 析 、 面 向 属性 的 归纳 、 元 规则 引导 发 现 、 逐 级 深 
化 发 现 多 级 规则 等 技术 。 
@@ 完成 多 种 知识 的 发 现 : 如 泛 化 规则 、 关 联 规则 、 特 性 规则 、 分 类 规则 、 演 化 和 偏离 知 
斌 等 。 
@ 数据 挖 气 查 询 语言 DMQL， 它 是 一 种 交互 式 的 类 SQL 语言 。 
@ 实现 了 基于 客户 /服务 器 体系 结构 的 Unix 和 PC ( Windows/NT ) 版 本 的 系统 。 
@ 平滑 集成 关系 数据 库 。 
DBMiner 系 统 的 设计 特点 是 集成 数据 开采 和 关系 数据 库 ， 然 后 借助 于 面向 属性 的 多 级 概 
念 来 发 现 各 种 知识 。 
7. Mahout 


Mahout 是 Apache Software Foundation ( ASF ) 旗下 的 一 个 开源 项 目 ， 在 机 器 学 习 领 域 提 供 
了 一 些 可 扩展 的 经 典 算法 的 实现 和 数据 挖掘 的 程序 库 。 它 可 以 实现 很 多 功能 ， 包 括 聚 类 、 分 
类 、 推 荐 过 滤 、 频 繁 子 项 挖掘 等 。 该 项 目 很 大 部 分 建立 在 Hadoop 分 布 式 计算 项 目的 基础 上 ， 
把 许多 以 前 在 单机 上 运行 的 算法 ， 转 化 为 MapReduce 模 式 ， 从 而 大 大 提升 了 算法 可 处 理 的 数据 
量 和 处 理性 能 。 此 外 ， 通 过 使 用 Apache Hadoop 库 ， 可 以 将 Mahout 有 效 地 扩展 到 云 中 。 但 是 它 
只 提供 给 开发 者 使 用 的 一 个 工具 框架 ， 并 不 提供 用 户 接口 、 预 打包 的 服务 器 或 者 安装 程序 。 

Mahout 实 现 的 机 器 学 习 算 法 包括 : 聚 类 算法 、 分 类 算法 、 关 联 规则 挖掘 、 回 归 、 降 维 
( 维 约 简 ) 、 进 化 算法 、 过 滤 、 向 量 相似 度 计算 、 非 Map-Reduce 算 法 等 。 

Mahout 支 持 一 些 集群 算法 ( 都 是 使 用 Map-Reduce 编 写 的 ) ， 这 些 算法 都 有 一 组 各 自 的 标 
准 和 目标 ， 如 Canopy 是 一 种 快速 集群 算法 ,常用 于 为 其 他 集群 算法 创建 初始 种 子 ; k-Means 
(以 及 模糊 k-Means ) 是 根据 项 目 与 之 前 迭代 的 质心 (或 中 心 ) 之 间 的 距离 将 项 目 添加 到 k 集 
群 中 ; Mean-Shift 是 无 需 任何 关于 集群 数量 的 推理 知识 的 算法 ， 可 以 生成 任意 形状 的 集群 ; 
Dirichlet 借 助 基于 多 种 概率 模型 的 集群 ， 不 需要 提前 执行 特定 的 集群 视图 。 


5.3.3 ”可视化 设计 工具 


读者 在 本 章 了 解 了 数据 分 析 以 及 可 视 化 的 技术 ， 对 于 想 要 实现 数据 可 视 化 的 用 户 可 能 会 
问 “ 有 没有 什么 软件 可 以 实现 数据 可 视 化 ”。 很 幸运 ， 目 前 有 很 多 开 箱 即 用 的 可 视 化 软件 ， 
只 需 有 鼠标 就 能 够 操作 ， 还 有 一 些 软件 则 需要 一 点 编程 技巧 ， 虽 然 有 些 工 具 并 不 是 专门 用 于 
制作 数据 图 ， 但 依然 有 帮助 ， 下 面 会 列举 当前 比较 流行 的 几 种 可 视 化 工具 。 

1. Many Eyes 


Many Eyes 是 IBM 视 觉 传达 实验 室 主导 的 一 个 研究 项 目 ， 该 软件 带 有 一 系列 交互 式 的 可 视 
化 工具 ， 也 是 一 个 在 线 应 用 ， 能 够 识别 带 分隔 符 的 文本 文件 。Many Eyes 名 字 的 由 来 是 因为 其 初 
瑞 是 想 了 解 人 们 能 否 以 群 组 的 形式 探索 大 型 数据 集 。 如 果 一 个 群 组 内 的 众多 眼睛 来 观察 某 个 数 
据 集 ， 是 否 可 以 从 中 挖掘 到 更 多 有 意思 的 地 方 ? 效率 是 否 会 更 高 ? 

虽然 Many Eyes 目 前 尚未 提供 多 人 的 数据 分 析 功能 ， 但 作为 个 人 使 用 来 说 它 依然 很 有 价 
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值 。 该 软件 提供 的 功能 涵盖 了 绝 大 多 数 传统 的 可 视 化 类 型 ， 它 的 优势 在 于 其 中 的 可 视 化 数据 
图 都 是 可 交互 的 ， 而 且 有 一 些 定制 选项 。 比 如 说 在 散 点 图 中 ， 可 以 用 第 三 种 指标 来 测量 各 个 
数据 节点 ， 而 且 鼠 标 悬 停 在 感 兴趣 的 数据 节点 时 还 能 查看 具体 的 数值 。 

Many Eyes 是 目前 数据 探索 中 用 途 最 为 广泛 的 免费 工具 之 一 ， 不 过 在 使 用 该 软件 时 有 两 点 
仍然 值得 注意 。 其 一 ， 该 软件 的 大 部 分 工具 都 是 Java 应 用 小 程序 ， 在 使 用 的 电脑 中 如 果 没 有 
安装 Java， 可 能 就 无 法 充分 利用 它 ; 其 二 ， 对 多 数 人 来 说 可 能 更 为 敏感 ， 因 为 使 用 该 软件 时 
上 传 到 网 站 的 数据 是 存储 在 公共 空间 里 的 ， 所 以 最 好 不 要 用 Many Eyes 来 挖掘 贵 公司 的 客户 信 
息 或 者 销售 数据 。 

2. D3 


D3 是 纽约 时 报 可 视 化 编辑 Mike Bostock 与 他 斯 坦 福 的 教授 和 同学 合作 开发 的 用 于 数据 文 
件 处 理 的 JavaScript Library， 全 称 叫 做 Data-Driven Document，Mike Bostock 也 是 Protovis 的 开 
发 者 之 一 。D3 的 最 大 特性 就 是 能 把 数据 和 文档 对 象 模型 ( DOM ) 结合 ， 从 而 对 文档 进行 数 
据 驱 动 的 操作 和 交互 。 例 如 ,用户 可 以 用 D3 从 数组 生成 HTML 表 格 , 或 者 使 用 相同 数据 平滑 
和 动态 规律 创建 一 个 SVG 图 表 。D3 的 轻 量 级 特性 使 它 能 够 更 好 地 利用 CSS 3、HTML 5 和 SVG 
(Scalable Vector Graphiecs， 可 伸缩 向 量 图 形 ) 等 底层 技术 。D3 的 性 能 非常 出 色 ， 速 度 极 快 ， 
支持 大 数据 集 和 动态 交互 及 动画 效果 ， 它 可 以 非常 灵活 地 设计 出 Web 可 视 化 应 用 。 此 外 , 它 
既 可 以 作为 一 个 可 视 化 框架 ( 如 Protovis ) ， 也 可 以 作为 构建 页 面 的 框架 ( 如 jQuery ) 。D3 的 
功能 设计 允许 代码 重用 ， 通 过 集合 不 同 的 组 件 和 插件 ， 对 视图 结果 有 很 大 的 可 控 性 。 它 支持 
的 数据 格式 常见 的 有 : txt、html、json、html、xml、csv 等 。 

D3 是 一 款 开源 的 可 视 化 工具 ， 它 的 优点 是 动画 和 交互 图 ， 入 手 简单 ， 易 于 使 用 ， 降 低 了 
服务 器 负载 ， 拥 有 大 量 的 图 表 类 型 ， 跨 服务 器 语言 。 但 是 可 能 不 符合 我 们 中 国人 的 报表 使 用 
习惯 。 


3. Protovis 


Protovis 是 一 款 免费 的 开源 JavaSeript 可 视 化 工具 ， 由 斯 坦 福 可 视 化 小 组 的 Mike Bostock 
和 Jeff Heer 开 发 ， 该 软件 主要 的 功能 是 从 用 户 角度 观察 数据 ， 并 用 简单 的 图 形 描 述 数 据 。 
Protovis 通 过 动态 地 继承 、 扩 展 、 布 局 吉 免 了 图 形 库 随 着 功能 的 增强 而 变 得 腔 肿 这 个 缺陷， 
这 是 许多 可 视 化 图 形 库 达 不 到 的 。 它 用 JavaScript 和 SVG 构建 Web 可 视 化 应 用 ， 无 需 插 件 。 
Protovis 也 可 通过 示例 教学 进行 学 习 。 

4. Datawatch 


Datawatch 是 Datawatceh 公 司 开发 的 数据 可 视 化 工具 ， 它 可 以 直接 获取 结构 化 和 非 结 构 化 
数据 ， 并 以 可 视 化 的 方式 实时 展现 数据 ， 它 能 与 市 面 上 所 有 的 数据 源 实 现 无 颖 对 接 ， 包 括 
DATABASE 、KDB+ 和 0OData 等 。 同 时 可 以 实现 在 数据 运转 中 实时 查看 数据 ， 更 直观 地 将 稠密 
数据 可 视 化 ， 更 立体 地 分 组 显示 数据 ， 更 流畅 地 显示 快速 变化 的 数据 。 该 软件 可 以 快速 地 完 
成 ETL， 灵 活 地 进行 数据 转化 ， 有 效 获 取 半 结 构 化 的 数据 ， 兼 容 现 有 的 方法 以 及 用 SQL 语言 
取 数 据 。 当 数据 与 预 设 值 产生 偏差 时 ， 可 以 提供 警告 服务 ， 并 支持 嵌 套 与 扩展 。 主 要 产品 包 
括 : Datawatch Desktop 和 Datawatch Server。 它 可 应 用 于 数据 庞大 且 繁 琐 、 实 时 要 求 性 较 高 的 需 
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求 ， 如 销售 业绩 、 风 控 等 。 

Datawatch 支 持 多 种 信息 可 视 化 技术 ,包括 : 树 形 图 、 热 力图 、 和 矩阵 热点 图 、 柱 形 图 、 地 
平 线 图 、 线 形 图 、 针 状 图 、OHLC ( 开盘 价 、 最 高 价 、 最 低 价 、 收 盘 价 ) 图 、 散 点 图 、 堆 栈 
图 、 表 面 可 视 化 图 。Datawatch 可 以 支持 以 上 可 视 化 图 表 以 及 其 他 更 多 图 表 ， 能 帮助 用 户 看 到 
多 种 层级 结构 、 内 在 关系 以 及 各 个 对 象 的 细节 ， 从 而 解决 问题 、 了 解 复杂 的 关系 ， 找 出 需要 
关注 的 领域 。 

5. Quadrigram 


Quadrigram 是 西班牙 的 Bestiario 开 发 的 可 视 化 编程 语言 ， 致 力 于 收集 数据 、 处 理 数据 、 分 
享 数据 、 可 视 化 信息 。 前 身 叫 做 “Impure”。 它 可 从 各 种 数据 中 提取 信息 ， 无 论 是 用 户 自 己 
的 数据 还 是 来 自 社交 媒体 的 数据 、 财 经 数据 、 图 片 、 新 闻 、 搜 索 结 果 等 。 利 用 模块 化 的 逻辑 
接口 ， 用 户 可 以 快速 地 设置 交互 方式 ， 借 助 于 可 视 化 方法 呈现 数据 。 灵 活 与 直观 地 建立 用 户 
自 定义 的 数据 可 视 化 视觉 语言 ， 它 能 够 使 用 户 快速 标准 化 并 分 享 自己 的 想法 ， 分 析 和 监控 用 
户 的 数据 ， 以 及 以 交互 式 可 视 化 的 形式 ， 通 过 动画 或 指示 板 产生 令 人 信服 的 解决 方案 。 

6. Tableau 


Tableau 是 桌面 系统 中 最 简单 的 商业 智能 工具 软件 ， 是 一 款 只 面向 Windows 系 统 的 软件 ， 
它 的 设计 初衷 主要 是 用 于 视觉 化 的 数据 研究 和 分 析 ， 其 最 大 的 优势 是 在 美学 和 设计 上 比 其 他 
软件 要 突出 。 它 没有 强迫 用 户 编写 自 定义 代 码 ， 新 的 控制 台 也 可 完全 自 定 义 配 置 。 在 控制 台 
上 ,不 但 可 以 监测 信息 ， 而 且 还 提供 完整 的 分 析 能 力 。Tableau 控 制 台 不 仅 具有 灵活 性 ， 而 且 
具有 高 度 的 动态 性 。Tableau 发 布 了 免费 版 本 的 Tableau Public。 

Tableau 公 司 完美 地 将 数据 运算 与 美观 的 图 表 嫁 接 在 一 起 。 它 的 程序 很 容易 上 上手， 用户 可 以 
直接 用 它 将 大 量 数 据 拖 放 到 数字 “画布 ”上 ， 人 快速 地 创建 好 各 种 图 表 。 这 一 软件 的 理念 是 ， 界 
面 上 的 数据 越 容 易 操 控 ， 公 司 就 能 对 自己 所 在 业务 领域 里 的 所 作 所 为 是 否 正确 了 解 得 越 透彻 。 

Tableau Desktop 是 基于 斯 坦 福 大 学 研发 的 突破 性 技术 的 应 用 程序 。 它 帮助 用 户 生动 地 分 
析 实 际 存在 的 任何 结构 化 数据 ， 并 在 几 分 钟 内 生成 美观 的 图 表 、 坐 标 图 、 仪 表盘 与 报告 。 利 
用 Tableau 简 便 的 拖 放 式 界面 ， 用 户 可 以 自 定义 视图 、 布 局 、 形 状 、 颜 色 等 ， 帮 助 用 户 展现 自 
己 的 数据 视角 。Tableau Server 也 是 应 用 程序 ， 它 可 以 将 Tableau Desktop 中 最 新 的 交互 式 数据 可 
视 化 内 容 、 仪 表盘 、 报 告 与 工作 短 的 共享 变 得 简单 快速 。Tableau Reader 是 免费 的 计算 机 应 用 
程序 ， 帮 助 用 户 查 看 内 置 于 Tableau Desktop 的 分 析 视 角 与 可 视 化 内 容 。 拥 有 Tableau Interactor 
许可 证 的 用 户 可 以 交互 、 过 滤 、 排 序 与 自 定义 视图 。 如 果 是 拥有 Tableau Viewer 许 可 证 的 用 户 
则 可 以 查看 与 监视 发 布 的 视图 。 

7. Google Chart 


Google Chart 提 供 了 一 种 非常 完美 的 方式 来 可 视 化 数据 ， 它 属于 在 线 工 具 。 它 提供 了 大 量 
现成 的 图 表 类 型 ， 从 简单 的 线 图 表 到 复杂 的 分 层 树 、 地 图 等 都 有 。 它 还 内 嵌 了 动画 和 用 户 交 
互 控制 。 

除 此 之 外 ，Google 还 提供 了 一 系列 免费 的 可 视 化 组 件 ， 下 面 介绍 它 的 几 个 主要 组 件 。 
( 注 : Google 在 线 应 用 正在 不 断 更 新 。 ) 
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Google Chart APT 让 用 户 能 通过 URIL 传 递 参数 ， 生 成 动态 的 图 表 和 图 片 。 该 API 可 以 产生 各 
种 各 样 的 图 表 ， 如 饼 图 、 地 图 、QR 码 和 文 氏 图 等 。 所 有 描述 图 片 的 参数 都 包含 在 URL 中 。 部 
分 图 表 的 URL 可 以 采用 Chart Wizard 快 捷 地 生成 ， 生 成 的 URL 可 以 嵌入 <img> 标 签 中 。 

Google Visualization API 是 对 Google Chart API 的 补充 和 提升 ， 它 可 以 用 来 开发 更 高 级 的 网 
络 版 的 交互 图 表 和 图 片 ， 可 以 直接 从 Google Docs 平 台 等 在 线 数 据 库 中 获取 图 表 的 数据 。Google 
Visualization API 生 成 的 图 表 有 丰富 的 交互 性 ， 用 户 可 以 直接 编码 来 处 理事 件 ， 实 现 更 好 的 网 
页 效果 。 用 户 可 以 编写 JavaScript 和 HTML 或 者 通过 Coogle Gadget 的 小 工具 来 设计 自己 的 想 要 的 
报告 和 交互 界面 ， 可 视 化 地 分 析 、 显 示 数 据 。Google Visualization API 也 可 以 让 用 户 创建 、 分 
享 和 重用 开发 者 社区 构建 的 可 视 化 工具 。 

Google Ngram Viewer 可 以 查询 并 可 视 化 某 个 单词 或 词组 在 过 去 500 年 的 书 中 出 现 的 频率 。 
基于 Google 富 于 争议 而 雄心 勃勃 的 图 书 数字 化 计划 获取 的 海量 数据 ，Ngram Viewer 引 擎 可 以 分 
析 词 汇 在 海量 图 书 中 使 用 的 频率 和 使 用 概率 的 历史 变化 趋势 。 

Google Analytics 是 用 来 分 析 网 站 流量 和 用 户 行为 的 工具 。 该 工具 会 跟踪 并 且 记 录用 户 在 
网 站 上 的 访问 行为 、 行 为 统计 、 用 户 地 理 位 置 等 各 种 信息 ， 最 终 的 结果 以 可 视 化 的 形式 呈现 在 
交互 界面 上 ， 这 些 可 视 化 的 形式 包括 条 状 图 、 折 线 图 、 火 花 线 、 饼 图 、 运 动 图 和 区 域 地 图 等 。 

8. JFreeChart 


JFreeChan 是 基于 Java 平 台 的 一 个 开放 式 的 图 表 绘制 关 库 。 它 完全 使 用 Java 语 言 编写 ， 是 
为 Applications 、Applets 、Servlets 以 及 JSP 等 使 用 所 设计 的 。JFreeChart 可 生成 多 种 图 表 ， 如 人 饼 
图 、 柱 状 图 、 散 点 图 、 时 序 图 、 甘 特 图 等 ， 并 且 可 以 生成 PNG 和 JPEG 格 式 的 图 片 ， 还 可 以 与 
PDF 和 EXCEL 关 联 。 


15.4 练习 
一 、 选 择 题 
1. Hive 查 询 语言 和 SQL 的 不 同 之 处 在 于 操作 。 
A. Group By B. Join 
C. Partition D. Union 
2. Hive 最 终 重视 的 性 能 是 可 测量 性 ， 延 展 性 ， 和 对 于 输入 格式 的 宽松 匹配 性 。 
A. 较 低 恢复 性 B. 容错 性 
C. 快速 查 询 D. 可 处 理 大 量 数据 
3. 下 面 哪些 工具 不 属于 可 视 化 工具 ? 
A. Many Eyes B. Datawatch 
C. Mahout D. Tableau 
二 、 简 答题 


1. Hive 的 体系 结构 具体 包括 什么 ? 
2. Stinger 是 对 Hive 的 优化 的 项 目 ， 具 体 的 改进 包括 什么 ? 
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3. 可 视 化 技术 有 哪 几 类 ? 分 别 是 什么 ? 
4. 时 间 序 列 分 析 中 怎么 建立 模型 ? 

5. 主 成 分 分 析 与 因子 分 析 的 异同 点 ? 
6. 数据 分 析 的 定义 ? 

7. 可 视 化 的 定义 ? 
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第 6 章 


数据 挖掘 技术 


数据 采集 和 数据 存储 技术 的 不 断 进步 使 组 织 积 累 了 海量 的 数据 ， 而 且 这 些 数据 量 还 在 不 
断 地 快速 增长 。 快 速 增长 的 海量 数据 存储 在 数据 库 、 数 据 仓库 中 ， 从 中 提取 有 用 信息 成 为 了 
巨大 的 挑战 。 早 在 1982 年 ， 趋 势 大 师 约 翰 ' 奈 斯 比 ( John Naisbitt ) 就 在 他 的 首部 著作 《大 趋 
势 》 ( Megatrends ) 中 提 到 “人 类 正 被 信息 淹没 ， 却 饥 渴 于 知识 。” 由 于 数据 量 太 大 ， 并 且 
数据 本 身 具 有 新 的 特点 ， 传 统 的 数据 分 析 工 具 和 技术 已 无 法 完全 满足 海量 信息 处 理 的 需求 。 
此 时 ， 数 据 挖 掘 技术 则 将 传统 的 统计 分 析 方 法 与 处 理 大 量 数据 的 复杂 算法 结合 起 来 ， 为 探查 
和 分 析 新 的 数据 类 型 以 及 用 新 方法 分 析 海 量 数据 提供 了 契机 


6.1 数据 挖掘 简介 


数据 挖掘 ( Data Mining，DM ) 简单 来 说 就 是 在 大 量 的 数据 中 提取 或 挖掘 信息 ， 通 过 仔细 
分 析 来 揭示 数据 之 间 有 意义 的 联系 、 趋 势 和 
模式 。 数 据 挖掘 技术 出 现 于 20 世 纪 80 年 代 后 
期 ， 是 数据 库 研 究 中 的 一 个 新 领域 ， 具 有 很 
高 的 研究 与 应 用 价值 。 数 据 挖 据 属 于 交叉 性 | 模式 识别 | 一 "| 数据 挖掘 | 数据 库 技术 ] 
学 科 ， 它 融合 了 统计 学 、 数 据 库 技术 、 机 器 
学 习 、 人 工 智能 、 模 式 识别 和 数据 可 视 化 等 人 
多 个 领域 的 理论 和 技术 ， 如 图 6.1 所 示 。 图 6.1 数据 控 所 未 多 学 科 彩 

数据 挖掘 主要 是 为 了 发 现 隐藏 在 数据 中 
的 有 用 信息 和 规律 ， 数 据 库 中 知识 发 现 ( Knowledge Discovery in Database, KDD ) 是 将 未 加 工 
的 数据 转换 成 有 用 信息 的 整个 过 程 ， 因 而 从 模式 处 理 的 角度 ,许多 人 对 这 二 者 并 没有 作 严 格 
的 区 分 , 但 本 书 认为 数据 挖掘 只 是 KDD 中 的 一 个 核心 步骤， 如 图 6.2 所 示 。 

(1 ) 数据 清理 : 消除 噪声 或 不 一 致 的 数据 。 

(2 ) 数据 集成 : 将 多 种 数据 源 集合 到 一 起 。 

(3 ) 数据 转换 和 选择 : 提取 相关 数据 ， 并 将 其 转换 成 适合 挖掘 的 形式 。 

(4 ) 数据 挖掘 : KDD 的 关键 步 又， 运用 相关 的 数据 挖掘 技术 得 到 数据 模式 。 

(5 ) 模式 评估 : 根据 兴趣 度 度量 ， 识 别 表 示 知 识 的 有 用 的 模式 。 

(6 ) 知识 表示 : 运用 知识 表示 、 可 视 化 等 相关 技术 ， 向 用 户 展示 挖掘 到 的 知识 。 
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图 6.2 ”数据 库 中 知识 发 现 的 过 程 
一 般 地 ， 数 据 挖掘 任务 可 以 分 为 两 大 类 . 
@ 描述 任务 : 刻画 数据 的 特征 ， 概 括 数 据 中 潜在 联系 的 模式 ( 包括 相关 ， 趋势， 聚 类 和 
异常 等 ) 。 
@ 预测 任务 : 根据 当前 数据 进行 推理 、 预 测 ， 根 据 其 他 属性 的 值 ， 预 测 特定 属性 的 值 。 
本 质 上 ， 描 述 性 挖掘 任务 通常 是 探查 性 的 ， 并 且 常 常 需要 后 处 理 技术 来 验证 和 解释 结 
果 。 图 6.3 展 示 了 本 章 介 绍 的 四 种 主要 数据 挖掘 任务 ， 包 括 关 联 分 析 、 分 类 与 回归 、 聚 类 分 析 
和 离 群 点 检测 。 


图 6.3 ”四 种 主要 数据 挖掘 类 型 
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数据 挖掘 产生 于 应 用 ， 面 向 于 应 用 。 数 据 挖掘 的 跨行 业 数 据 挖掘 标准 过 程 ( Cross 
Industry Standard Process for Data Mining，CRISP-DM ) 是 当今 数据 挖掘 界 通用 的 标准 之 一 ， 
它 强调 数据 挖掘 在 商业 中 的 应 用 ， 解 决 商业 中 的 问题 。CRISP-DM 参 考 模型 中 包括 : 商业 理 
解 、 数 据 理解 、 数 据 准备 、 建 立 模型 、 模 型 评估 和 模型 部 署 六 个 阶段 ， 如 图 6.4 所 示 。 


图 6.4 CRISP-DM 参 考 模型 

(1) 商业 理解 : 从 商业 角度 理解 项 目的 目标 和 要 求 ， 把 这 些 理解 转换 成 数据 挖掘 问题 
的 定义 和 实现 目标 的 最 初 规划 。 

(2 ) 数据 理解 : 从 收集 数据 开始 ， 然 后 熟 秋 数据、 甄别 数据 质量 问题 、 发 现 对 数据 的 
真知 灼 见 或 探索 出 令 人 感 兴趣 的 数据 子 集 并 形成 对 隐藏 信息 的 假设 。 

(3 ) 数据 准备 : 为 建 模 工具 准备 适合 挖掘 的 数据 类 型 的 过 程 ， 涵 盖 从 原始 数据 到 最 终 
数据 集 的 全 部 活动 ， 主 要 包括 数据 的 转换 和 清洗 。 

(4 ) 建立 模型 : 运用 适当 的 建 模 技术 ， 建 立 科 学 合理 的 模型 ， 并 优化 模型 中 的 参数 。 

(5 ) 模型 评估 : 对 所 建 模型 进行 较为 全 面 的 评价 ， 重 审 建立 模型 的 步 又， 并 确认 模型 能 
否 达 到 商业 目的 ， 从 而 不 断 地 调整 并 优化 模型 ， 并 确定 使 用 数据 挖掘 结果 得 到 的 决策 是 什么 。 

(6 ) 模型 部 署 : 生成 报告 或 者 实施 一 个 覆盖 企业 的 可 复 用 的 数据 挖掘 过 程 。 


上 6.2 关联 分 析 


关联 分 析 就 是 从 有 噪声 的 、 模 糊 的 、 随 机 的 海量 数据 中 ， 挖 气 出 隐藏 的 、 人 们 事先 不 知 
道 、 但 是 有 潜在 关联 的 信息 或 知识 的 过 程 ， 所 发 现 的 信息 或 知识 通常 用 关联 规则 或 频繁 项 集 
的 形式 表示 。 随 着 收集 和 存储 在 数据 库 中 的 数据 规模 的 增 大 ， 人 们 对 从 这 些 数据 中 挖掘 出 的 
关联 知识 也 越 来 越 有 兴趣 。 例 如 : 从 大 量 的 商业 交易 记录 中 发 现 有 价值 的 关联 知识 就 可 帮助 
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企业 进行 交叉 营销 、 客 户 关系 管理 或 辅助 相关 的 商业 决策 。 表 6.1 给 出 了 一 个 通常 称 作 购物 
篮 事务 的 例子 ， 表 中 每 行 对 应 一 个 事务 ， 包 含 一 个 惟一 标识 TID 和 给 定 顾客 购买 的 商品 的 集 
合 。 零 售 商 对 分 析 这 些 数据 很 感 兴趣 ， 这 便于 他 们 了 解 顾客 的 购买 行为 ， 进 而 采取 对 应 的 促 
销 活动 。 


表 6.1 ”购物 篮 事务 的 例子 
TD | 项 集 | 
1 | 面包, 牛奶 | 
2 |( 面 包 ， 尿布 ， 啤 酒 ， 鸡 蛋 } | 


从 表 6.1 所 示 的 数据 中 可 以 提取 出 如 下 规则 : 

{ 尿 布 | 一 (啤酒 } 

该 规则 表明 尿布 和 啤酒 的 销售 之 间 存 在 着 很 强 的 联系 ， 因 为 许多 购买 尿布 的 顾客 同时 也 
购买 了 啤酒 。 零 售 商 可 以 利用 这 类 规则 ， 帮 助 他 们 发 现 新 的 交叉 销售 商机 。 除 了 购物 篮 分 析 
外 ， 关 联 分 析 也 可 以 应 用 于 其 他 领域 ， 如 生物 信息 学 、 医 疗 诊断 、 网 页 挖掘 和 科学 分 析 等 。 

在 对 数据 进行 关联 分 析 时 ， 需 要 注意 两 个 关键 的 问题 : 第 一 ， 从 大 型 事务 数据 集中 发 现 
模式 在 计算 上 可 能 要 付出 很 高 的 代价 ; 第 二 ， 所 发 现 的 模式 有 可 能 是 虚假 的 ， 因 为 发 现 的 模 
式 可 能 是 偶然 发 生 的 。 本 节 主 要 围绕 这 两 个 问题 组 织 、 介 绍 关联 分 析 的 基本 概念 和 算法 等 。 


6.2.1 基本 概念 


设 三 {i1,i…,is} 是 项 的 集合 ， 其 中 iK=1,2,.…,m} 表 示 项 ， 如 果 XCI， 集 合 X 被 称 为 项 集 ， 如 
果 一 个 项 集 包含 k 个 项 ， 则 称 它 为 k- 项 集 。 事 务 二 元 组 ?=(TID， 人 了，7TID 是 事务 惟一 的 标识 符 ， 
称 为 事务 号 ,数据 集 D=(t,6.…, 刀 是 由 4.6…,h 事 务 组 成 的 集合 。 

如 果 项 集 X 是 事务 # 的 子 集 ， 则 称 事务 # 包 含 项 集 X。 项 集 的 一 个 重要 性 质 是 它 的 支持 度 计 
数 ， 即 包含 特定 项 集 的 事务 个 数 ， 项 集 X 的 支持 度 计数 85(X) 可 以 表示 为 : 

dX) =| 人 | X<t, te (6-1) 

其 中 ,符号 I" 表示 集合 中 元 素 的 个 数 。 

关联 规则 可 以 描述 为 4 = 8 的 蕴含 式 ， 其 中 ，Ac7,BcT， 并且 A4NB#@B。 关 联 规则 的 强 
度 可 以 用 它 的 支持 度 ( support，s ) 和 置信 度 ( confidence，c ) 度量 ,支持 度 表 示 D 中 事务 包 
含 4UB 的 百分比 ， 它 是 概率 p(4UB)， 而 置信 和 度 表示 包含 A 的 事务 也 包含 B 的 百分比 ， 它 是 条 
件 概 率 p(B 1 4)。 支 持 度 和 置信 度 这 两 种 度量 的 形式 定义 如 下 : 

6(AUB) 


s(A4=B)=p(A4UB)= 5D) (6-2 ) 
(a 
e(4=8) -p(B (6-3) 


关联 分 析 是 在 事务 D 中 找 出 大 于 用 户 所 给 定 的 最 小 支持 度 ( minsup ) 和 最 小 置信 度 
(minconf ) 的 关联 规则 。 关 联 规则 的 挖掘 问题 通常 可 以 分 解 为 以 下 两 个 子 问题 。 
(1 ) 产生 频繁 项 集 : 发 现 满足 最 小 支持 度 阔 值 的 所 有 项 集 ， 这 些 项 集 被 称 为 频繁 项 集 。 
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(2 ) 规则 的 产生 : 从 上 一 步 发 现 的 频繁 项 集中 提取 所 有 满足 所 要 求 的 置信 和 度 的 规则 ， 
这 些 规 则 称 作 强 规则 。 
通常 ， 产 生 频 繁 项 集 所 需要 的 计算 开销 远大 于 产生 规则 所 需要 的 计算 开销 。 


6.2.2 经典 频 集 算法 


Apriori 算 法 是 一 种 最 有 影响 的 挖掘 布尔 关联 规则 频繁 项 集 的 算法 ， 算 法 有 两 个 关键 步 
又 : 一 是 发 现 所 有 的 频繁 项 集 ; 二 是 生成 强 关联 规则 。 

Apriori 算 法 的 核心 思想 如 下 。 

对 于 给 定 的 一 个 数据 库 ， 首 先 对 其 进行 扫描 ， 找 出 所 有 的 频繁 1- 项 集 ， 该 集合 记 做 Di， 
然后 利用 LL, 找 频 繁 2- 项 集 的 集合 L,，L, 找 Ls， 如 此 下 去 ， 直 到 不 能 再 找到 任何 频繁 k- 项 集 。 最 
后 在 所 有 的 频繁 集中 提取 出 强 规则 ， 即 产生 用 户 所 感 兴趣 的 关联 规则 。 

Apriori 算 法 扫描 数据 库 的 次 数 等 于 最 大 频繁 集 的 项 数 。Apriori 算 法 有 两 个 致命 的 性 能 瓶 
颈 : 产生 的 候选 集 过 大 ， 而 且 算 法 必须 耗费 大 量 的 时 间 处 理 候选 项 集 ; 多 次 扫描 数据 库 ， 需 
要 很 大 的 IO 负载 ， 时 间 和 空间 复杂 度 高 。 

为 了 提高 算法 的 效率 ，Apriori 算 法 运用 了 “频繁 项 集 的 子 集 是 频繁 项 集 ， 非 频繁 项 集 的 
超 集 是 非 频 繁 项 集 ” 这 一 性 质 有 效 地 对 频繁 项 集 进 行 修剪 。 如 果 C 中 某 个 候选 项 集 有 一 个 
(k-D- 子 集 不 属于 Li， 则 这 个 项 集 可 以 被 修剪 掉 ， 这 个 修剪 过 程 可 以 降低 计算 所 有 候选 集 的 
支持 度 的 代价 ?。 

虽然 Apriori 算 法 已 进行 了 一 定 的 优化 ， 但 在 实际 的 应 用 中 仍然 存在 不 足 ， 于 是 人 们 相继 
提出 了 基于 栈 变 换 、 基 于 划分 、 基 于 采样 、 基 于 Hash 的 算法 等 ， 来 提高 频 集 算法 的 效率 。 


6.2.3 FP Growth 


针对 Apriori 算 法 的 固有 缺陷 ，FP Growth 使 用 FP 树 的 紧凑 数据 结构 来 组 织 数据 ， 直 接 从 该 
结构 中 提取 频繁 项 集 。 

FP Growth 的 基本 思想 如 下 。 

采取 分 而 治之 的 策略 ， 在 保留 项 集 关 联 信息 的 前 提 下 ， 将 数据 库 的 频 集 压缩 到 一 棵 频 
繁 模式 树 中 ; 再 将 这 种 压缩 后 的 FP 树 分 成 一 些 条 件数 据 库 并 分 别 挖掘 每 个 条 件 库 。 在 算法 
中 有 两 个 关键 步骤 : 一 是 生成 频繁 模式 树 FP-Tree; 二 是 在 频繁 模式 树 FP-Tree 上 发 掘 频繁 
项 集 。 

算法 描述 如 下 。 

(1 ) 对 于 每 个 频繁 项 ， 构 造 它 的 条 件 投影 数据 库 和 投影 FP-Tree。 

(2 ) 对 每 个 新 构建 的 FP-Tree 重 复 这 个 过 程 ， 直 到 构造 的 新 FP-Tree 为 空 ， 或 者 只 包含 一 
条 路 径 。 

(3 ) 当 构 造 的 FP-Tree 为 空 时 ， 其 前 级 即 为 频繁 模式 ; 当 只 包含 一 条 路 径 时 ， 通 过 枚 举 
所 有 可 能 组 合并 与 此 树 的 前 级 连接 即 可 得 到 频繁 模式 。 


© http://www.40a.com/article/html/6/32/475/2005/16702.html 
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6.2.4 多 层 关 联 规则 


对 于 许多 应 用 ， 由 于 多 维 数据 空间 数据 的 稀 琉 性 ， 在 低层 或 原始 层 的 数据 项 之 间 很 难 找 
出 强 关 联 规则 。 现 实生 活 中 许多 的 概念 都 存在 层次 性 ， 在 进行 数据 挖掘 时 ， 可 以 引入 相关 概 
念 层次 ， 从 而 在 较 高 的 层次 上 进行 挖掘 。 对 不 同 的 用 户 来 说 ， 信 息 的 价值 是 不 同 的 ， 所 以 ， 
虽然 在 较 高 层次 上 挖掘 得 到 的 规则 可 能 是 更 为 普通 的 信息 ,但 对 于 一 些 用 户 也 许 是 非常 有 价 
值 的 信息 。 因此， 数据 挖掘 应 该 具备 在 多 个 层次 上 进行 挖掘 的 能 力 。 多 层 关 联 规则 可 分 为 同 
层 关联 规则 和 层 间 关联 规则 。 

同 层 关联 规则 可 采用 以 下 两 种 支持 度 策略 。 

(1) 统一 的 最 小 支持 度 : 对 于 不 同 的 层次 ,使 用 相同 最 小 支持 度 。 此 策略 对 于 用 户 来 
说 比较 容易 操作 ， 而 且 算法 也 比较 容易 实现 ， 但 是 也 存在 一 定 的 弊端 。 

(2 ) 递减 的 最 小 支持 度 : 每 个 层次 使 用 不 同 的 最 小 支持 度 ， 较 低层 次 使 用 的 最 小 支持 
度 相 对 较 小 ， 还 可 以 利用 在 上 层 挖掘 得 到 的 信息 进行 一 些 相关 的 过 滤 工 作 。 

层 间 关联 规则 应 该 根据 较 低层 次 的 最 小 支持 度 来 确定 挖掘 时 使 用 的 最 小 支持 度 。 


6.2.5 ”多 维 关联 规则 


多 维 关联 规则 指 涉及 两 个 或 两 个 以 上 层次 的 关联 规则 。 根 据 同一 个 维 在 关联 规则 中 是 否 重 
复出 现 ， 可 以 把 多 维 关 联 规则 分 为 两 种 类 型 : 一 种 是 维 问 关 联 规则 ， 该 规则 只 涉及 相同 的 维 ， 
即 维 不 重复 出 现 ; 另 一 种 是 混合 维 关联 规则 ， 该 规则 涉及 多 个 维 ， 即 维 可 以 重复 出 现 。 比 如 
“年 龄 20 至 30， 喜 欢 郊游 一 喜欢 游泳 ”就 是 混合 维 关联 规则 。 这 两 种 关联 规则 的 挖掘 还 要 考虑 
不 同 的 字段 种 类 ， 即 类 别 型 字段 与 数值 再 字段。 一 般 的 数据 挖掘 算法 都 可 以 对 类 别 型 字段 进 
行 关 联 规则 挖掘 ， 而 对 数值 型 字段 ， 就 需要 将 其 进行 一 定 的 处 理 才 可 以 进行 关联 规则 的 挖掘。 

处 理 数 值 型 字段 的 方法 有 以 下 几 种 。 

(1 ) 数值 型 字段 被 分 成 一 些 由 用 户 预定 义 的 层次 结构 ， 然 后 对 其 进行 关联 规则 挖掘 ， 
得 出 的 规则 叫做 静态 数量 关联 规则 。 

(2 ) 根据 数据 的 分 布 ， 数 值 型 字段 被 动态 地 分 成 一 些 布 尔 字 段 。 每 个 字段 表示 一 个 数 
值 字段 的 区 间 ， 落 在 其 中 为 1， 反 之 为 0。 经 挖掘 得 出 的 规则 叫做 布尔 数量 关联 规则 。 

(3 ) 考虑 数据 之 间 的 距离 因素 ， 数 值 型 字段 被 分 成 一 些 能 体现 它 含义 的 区 间 。 经 挖掘 
得 出 的 规则 叫做 基于 距离 的 关联 规则 。 

(4 ) 直接 分 析 数 值 型 字段 中 的 原始 数据 。 运 用 相关 的 统计 方法 对 其 进行 分 析 ， 同 时 结 
合 多 层 关联 规则 的 概念 ， 在 多 个 层次 之 间 进 行 比 较 ， 得 出 的 规则 叫做 多 层 数量 关联 规则 。 


上 6.3 分 类 与 回归 


数据 库 中 隐藏 着 许多 可 以 为 商业 、 科 研 等 活动 的 决策 提供 参考 的 知识 。 目 前 机 器 学 习 、 
模式 识别 、 统 计 学 和 神经 网 络 学 等 领域 的 研究 人 员 提 出 了 许多 预测 方法 。 其 中 分 类 和 回归 就 
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是 两 种 不 同 的 预测 方法 ， 分 类 主要 是 用 于 预测 离散 的 目标 变量 ,输出 的 是 离散 值 ; 而 回归 用 
于 预测 连续 的 目标 变量 ,输出 的 是 有 序 值 或 连续 值 。 本 节 主 要 介绍 分 类 与 回归 的 概念 ， 进 行 
分 类 和 回归 时 主要 使 用 的 技术 和 方法 。 


6.3.1 基本 概念 
分 类 任务 就 是 确定 对 象 属于 哪个 预定 义 的 目标 类 。 分 类 问题 是 一 个 普遍 存在 的 问题 ， 有 
许多 不 同 的 应 用 。 例 如 ， 根 据 电子 邮件 的 标题 和 内 容 检查 出 垃圾 邮件 ， 根 据 核磁 共振 扫描 的 
结果 区 分 肿瘤 是 恶性 的 还 是 良性 的 等 。 数 据 分 类 过 程 包括 两 个 步 台 ， 如 图 6.5 所 示 。 
训练 集 


E 


Yea 和 

上 
13 BN Merried | 111Ck D2 
地 Yes Jsinale | om | 
ab ho arrscd| ok 上 


图 6.5 ”建立 分 类 模型 的 一 般 方法 

第 一 步 ， i en ea 通过 分 析 属 性 所 描述 的 数据 库 元 组 
来 构造 模型 。 每 一 数据 行 都 可 认为 是 属于 一 个 确定 的 数据 类 别 ， 其 类 别 值 是 由 一 个 属性 描述 
ea te et ee dere 
为 训练 样本 ， 由 样本 群 随机 地 选取 。 

分 类 学 习 又 可 称 为 监督 学 习 ， 它 是 在 已 知 训练 样本 类 别 情况 下 ， 通 过 训练 建立 相应 模 
型 ;而 无 监督 学 习 ( 聚 类 ) 则 是 在 训练 样本 的 类 别 与 类 别 个 数 均 未 知 的 情况 下 进行 的 ， 那 里 
每 个 训练 样本 的 类 标号 都 是 未 知 的 ， 要 学 习 的 类 集合 或 数量 也 可 能 事先 不 知道 。 通 常 ， 分 类 
学 习 模型 以 分 类 规则 、 判 定 树 或 数学 公式 的 形式 提供 。 

第 二 步 ， 使 用 模型 进行 分 类 。 先 评估 模型 的 预测 准确 率 ， 当 该 准确 率 可 以 接受 时 ， 则 可 
以 用 其 对 类 标号 未 知 的 数据 元 组 或 对 象 进行 分 类 。 

分 类 模型 的 性 能 根据 模型 正确 和 错误 预测 的 检验 记录 计数 进行 评估 ， 这 些 计数 存放 在 称 
作 混 清和 矩阵 的 表格 中 。 表 6.2 描 述 了 一 个 二 元 分 类 问题 的 混淆 矩阵 。 表 中 每 个 表 项 访 表 示 实 际 
类 标号 为 被 预测 为 的 记录 数 。 


表 6.2 二 类 问题 的 混淆 矩阵 
预测 的 类 
类 =1 类 -=0 
| 类 =1 本 吧 
| 类 =0 阿 区 


实际 的 类 
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按照 混淆 矩阵 中 的 表 项 ， 被 分 类 正确 预测 的 样本 总 数 是 (i,+。) ， 而 被 错误 预测 的 样本 
总 数 是 (ut 人 ) 。 另 外 ， 使 用 准确 率 或 其 他 性 能 度量 来 衡量 分 类 模型 的 性 能 ， 定 义 如 下 : 
正确 预测 数 +。 

准确 率 - 预测 总 数 “ 记 二 7 二 六 二 7 
,，。 错误 预测 数 。 ” 丸 + 记 

错 并 率 - 志 测 B 政 “f+ 7 We 

大 多 数 分 类 算法 都 在 寻找 这 样 一 些 模型 ， 当 把 它们 应 用 于 检验 集 时 具有 最 高 的 准确 率 。 


6.3.2 决策 树 


决策 树 是 一 个 预测 模型 ， 它 是 一 种 由 结 点 和 有 向 边 组 成 的 树 结 构 。 其 中 ， 树 的 最 顶层 结 
点 是 根 结 点 ， 每 个 内 部 结 点 表示 属性 的 某 个 对 象 ， 每 个 分 枝 代 表 一 个 属性 值 输出 ， 每 个 叶 结 
点 代表 类 或 类 分 布 。 从 根 结 点 到 叶 结 点 的 一 条 路 径 就 表示 一 条 合 取 规则 ， 而 整个 决策 树 表示 
一 组 析 取 表 达 式 规则 。 一 棵 典型 的 决策 树 如 图 6.6 所 示 ， 该 决策 树 描述 了 一 个 购买 电脑 的 分 类 
模型 ,其 中 一 般 内 部 结 点 用 和 矩形 表示 ， 而 树叶 用 椭圆 表示 。 


(6-4) 


图 6.6 ”决策 树 示意 描述 

著名 的 ID3 算 法 是 Quinlan 在 1986 年 提出 来 的 ， 在 此 算法 的 基础 上 ，1993 年 他 又 提出 了 C4.5 
算法 ， 形 成 新 的 监督 学 习 算 法 的 性 能 比较 标准 。ID3 算 法 和 C4.5 都 是 采用 非 回溯 的 方法 。 然 
而 这 两 种 方法 已 经 越 来 越 难以 适应 较 大 规模 数据 集 的 处 理 需求 ， 因 此 在 此 基础 上 又 提出 了 一 
些 新 的 改进 算法 ， 其 中 SLIQ ( Supervised Learning In Quest ) 和 SPRINT ( Scalable Parallelizable 
Induction of decision Trees ) 是 两 种 比较 有 代表 性 的 算法 。 

1.1D3 算 法 

ID3 算 法 的 理论 基础 是 信息 论 ， 它 的 核心 思想 是 : 用 信息 增益 (information gain ) 作为 属 
性 选择 的 衡量 标准 ， 在 决策 树 各 级 结 点 上 选择 属性 ， 使 得 在 每 一 个 非 叶 结 点 进行 测试 时 ， 能 
获得 关于 被 测试 记录 最 大 的 类 别 信息 。 其 具体 操作 方法 是 : 检测 所 有 的 属性 ， 选 择 信息 增益 
最 大 的 属性 产生 决策 树 结 点 ， 由 该 属性 的 不 同 取 值 建立 分 支 ， 再 对 各 分 支 的 子 集 递 归 调用 该 
方法 建立 决策 树 结 点 的 分 支 ， 直 到 所 有 子 集 仅 包含 同一 类 别 的 数据 为 止 。 最 后 得 到 一 棵 决策 
树 ， 可 以 使 用 它 对 未 知 的 类 别 、 新 的 样本 进行 分 类 。 

信息 增益 的 计算 方法 是 : 按照 上 述 方法 计算 每 个 属性 的 信息 增益 ， 并 比较 它们 的 大 小 ， 
这 样 就 能 很 容易 地 获得 具有 最 大 信息 增益 的 属性 。 

设 S 是 s 个 样本 的 集合 ， 假 定 类 标号 属性 具有 m 个 不 同 值 ， 定 义 m 个 不 同类 Ci(i=1,2,…,m)。 
设 s 是 C 中 的 样本 数 ， 对 一 个 给 定 的 样本 分 类 所 需 的 期 望 信息 由 下 式 给 出 : 
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Ts1, sa 5)- > Pilog ,(p;) (6-6) 
其 中 , p 表 示 任 意 样本 属于 C 的 概率 ， 并 用 si/s 估 计 。 注 意 ， 对 数 函数 以 2 为 底 ， 因 为 信息 用 二 
进位 编码 。 
设 属性 4 具有 v 个 不 同 值 {a ,…, a,}。 可 以 用 属性 4 将 S 划 分 为 v 个 子 集 {5, ,…, S,); 其 中 , S 包 
含 5 中 这 样 一 些 样本 ,它们 在 4 上 具有 值 a;。 如 果 4 选 作 测试 属性 ( 即 最 好 的 划分 属性 ) ， 则 这 
些 子 集 对 应 于 由 包含 集合 5 的 结 点 生长 出 来 的 分 枝 。 设 sy 是 子 集 5 中 类 C 的 样本 数 。 根 据 4 划分 
子 集 的 焙 或 期 望 信息 由 下 式 给 出 : 
BA) = TGS) (6=7) 


/=1 


项 旦 二 名 充当 第 /个 子 集 的 权 ， 并 且 等 于 子 集 ( 即 ，4 值 为 a; ) 中 的 样本 个 数 除 以 S 中 的 样本 
总 数 。 炉 值 越 小 ， 子 集 划 分 的 纯度 越 高 。 对 于 给 定 的 子 集 5;， 其 信息 期 望 为 : 


7(sv， 5 ,Sm) = Prlogs(py) (6-8) 
其 中 , 加 表示 $ 中 的 样本 属于 C 的 概率 ， 用 ss 表示 。 
在 属性 4 上 分 枝 将 获得 的 信息 增益 是 : 
Gain(4)=7(s, ss )—E(A) (6-9 ) 
ID3 算 法 的 优点 是 : 算法 的 理论 清晰 ， 方 法 简单 易 操作 ， 学 习 能 力 较 强 。 其 缺点 是 : 对 比较 
大 的 数据 集 失效 ， 对 噪声 也 比较 敏感 ， 当 训练 数据 集 加 大 时 ， 产 生 的 决策 树 可 能 会 随 之 改变 。 
2. C4.5 算 法 


C4.5 算 法 是 在 ID3 算 法 的 基础 上 改进 而 来 的 ， 具体 的 改进 包括 以 下 几 个 方面 。 
@ 选择 属性 时 ， 用 信息 增益 率 代替 信息 增益 ， 克 服 了 用 信息 增益 选择 属性 时 偏向 选择 取 
值 较 多 的 属性 的 缺点 。 

@ 在 构造 树 的 过 程 中 直接 进行 剪 枝 。 

@ 实现 了 连续 属性 的 离散 化 处 理 。 

@ 实现 了 不 完整 数据 的 处 理 。 

与 其 他 分 类 算法 ， 如 统计 方法 、 神 经 网 络 等 比较 ，C4.5 算 法 的 优势 是 产生 的 分 类 规则 易 
于 理解 ， 准 确 率 较 高 。 但 是 它 也 存在 一 些 缺 点 ， 如 在 树 的 构造 过 程 中 ， 需 要 对 数据 集 进 行 多 
次 的 顺序 扫描 和 排序 ， 算 法 效率 比较 低 ; 此 外 ， 当 训练 集 大 到 无 法 在 内 存 容纳 时 ，C4.5 算 法 
无 法 运行 ， 此 算法 只 适用 于 可 以 驻 留 于 内 存 的 数据 集 。 

3. SLIQ 算 法 


SLIQ 算 法 是 IBM 于 1996 年 提出 的 ， 在 C4.5 算 法 的 基础 上 进行 了 改进 ， 它 是 一 种 高 速 可 调节 

的 数据 挖掘 分 类 算法 ， 主 要 解决 当 训练 集 数 据 量 巨 大 ， 无 法 全 部 放 入 内 存 时 ， 进 行 高 速 、 准 确 
的 生成 树 的 问题 。 它 在 构造 决策 树 的 过 程 中 采用 了 “ 预 排 序 ” 和 “广度 优先 策略 ”两 种 技术 。 

@ 预 排 序 。 在 以 前 的 算法 中 对 于 连续 属性 在 每 个 内 部 结 点 寻找 其 最 优 分 裂 标 准时 ， 都 要 

对 训练 集 按照 该 属性 的 取 值 进行 排序 ， 而 排序 是 很 费时 的 操作 。 为 了 降低 数值 型 属性 

的 排序 代价 ， 提 高 处 理 速 度 ，SLIQ 算 法 采用 了 预 排 序 技术 。 预 排序 技术 就 是 针对 每 
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个 属性 的 取 值 ， 把 所 有 的 记录 按照 从 小 到 大 的 顺序 进行 排序 ， 从 而 避免 了 在 决策 树 的 
每 个 结 点 对 数据 集 进行 的 排序 操作 。 在 操作 时 ， 需 要 为 训练 数据 集 的 每 个 属性 创建 一 
个 属性 列表 ， 为 类 别 属性 创建 一 个 类 别 列表 。 属 性 表 可 以 写 回 磁盘 。 

@ 广度 优先 策略 。C4.5 算 法 中 的 树 的 构造 是 采用 深度 优先 策略 完成 的 ， 此 策略 需要 对 每 
个 属性 列表 在 每 个 结 点 处 都 进行 一 遍 扫 描 以 完成 结 点 的 分 裂 ， 会 消耗 大 量 的 时 间 。 为 
了 节省 操作 时 间 ， 提 高 运行 效率 ，SLIQ 算 法 利用 广度 优先 策略 生成 决策 树 ， 此 策略 
对 每 层 结 点 只 需要 扫描 一 次 属性 列表 ， 就 可 以 找到 决策 树 中 每 个 叶子 结 点 的 最 优 分 裂 
方式 。 

与 C4.5 算 法 相 比 ，SLIQ 算 法 采用 了 上 述 两 种 技术 ,能 够 处 理 比 C4.5 规 模 大 得 多 的 训练 

集 ， 且 随 着 记录 个 数 和 属性 个 数 的 增长 ， 在 一 定 范围 内 具有 较 好 的 可 伸缩 性 。 

但 是 ，SLIQ 算 法 也 存在 以 下 缺点 : 

@@ 该 算法 创建 的 类 别 列 表 需 要 存放 于 内 存 ， 而 类 别 列 表 的 元 组 数 与 训练 集 的 元 组 数 是 相 
同 的 ， 这 在 一 定 程度 上 限制 了 能 够 处 理 的 数据 集 的 大 小 。 

@ 该 算法 采用 了 预 排序 技术 ， 而 排序 算法 的 复杂 度 并 不 与 记录 数目 成 线性 关系 ， 这 使 得 
该 算法 不 可 能 达到 随 记 录 数 目 增长 的 线性 可 伸缩 性 。 

4. SPRINT 算 法 


为 了 减少 滞留 在 内 存 中 的 数据 量 ，SPRINT 算 法 对 决策 树 算法 的 数据 结构 进行 了 进一步 的 
改进 ， 即 删除 了 在 SLIQ 算 法 中 需要 存放 于 内 存 的 类 别 列表 ， 将 它 的 类 别 列 合 并 到 每 个 属性 列 
表 中 ， 这 样 就 不 必 参 考 其 他 信息 。 在 遍历 每 个 属性 列表 寻找 当前 结 点 的 最 优 的 分 裂 标准 时 ， 
对 结 点 的 分 裂 就 表现 在 对 属性 列表 的 分 裂 ， 即 将 每 个 属性 列表 分 裂 成 两 个 列表 ， 分 别 存放 各 
个 结 点 的 记录 。 

SPRINT 算 法 可 以 更 为 简便 地 寻找 到 每 个 结 点 的 最 优 分 裂 标准 ， 但 其 也 存在 缺点 ， 即 分 裂 
非 分 裂 属 性 的 属性 列表 则 难以 实现 。 要 克服 这 一 缺点 ， 可 以 在 对 分 裂 属性 进行 分 裂 时 用 哈 硕 
表 记 录 每 个 记录 属于 哪个 子 结 点 ， 如 果 内 存 可 以 容纳 整个 哈 希 表 ， 则 其 他 属性 列表 的 分 裂 只 需 
要 参考 该 哈 希 表 。 哈 希 表 的 大 小 与 训练 的 数据 集 的 大 小 成 正比 ， 当 训练 的 数据 集 很 大 时 ， 内 存 
也 许 不 能 容纳 哈 希 表 ， 而 要 分 批 执行 分 裂 操作 ， 这 使 得 SPRINT 算 法 不 具有 很 好 的 可 伸缩 性 。 


6.3.3 ” 贝 叶 斯 分 类 算法 


贝 叶 斯 分 类 算法 是 统计 学 的 一 种 分 类 方法 ， 是 一 类 利用 概率 论 、 统 计 学 等 知识 进行 分 类 
的 算法 ， 如 朴素 贝 叶 斯 ( Naive Bayes，NB ) 算法 、 树 增强 型 朴素 贝 叶 斯 (TAN ) 算法 等 。 对 
于 一 个 未 知 类 别 的 样本 ， 贝 叶 斯 分 类 算法 首先 运用 贝 叶 斯 定理 来 预测 该 未 知 类 别 的 样本 属于 
各 个 类 别 的 可 能 性 ， 然 后 比较 可 能 性 的 大 小 ， 将 可 能 性 最 大 的 一 个 类 别 确定 为 该 样本 的 最 终 
类 别 。 因 为 贝 叶 斯 定理 是 在 一 个 很 强 的 独立 性 假设 前 提 下 才 成 立 的 ， 而 此 假设 在 大 多 数 实际 
情况 下 是 不 成 立 的 ， 所 以 这 在 一 定 程 度 上 降低 了 此 算法 的 分 类 准确 性 。 为 了 克服 这 一 缺点 ， 
增强 分 类 的 准确 性 ， 很 多 降低 独立 性 假设 的 贝 叶 斯 分 类 算法 应 运 而 生 ，TAN ( Tree Augmented 
Bayes Network ) 算法 就 是 其 中 的 一 种 。 
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1. NB 算法 

设 每 个 数据 样本 用 一 个 n 维 特征 向 量 来 描述 a 个 属性 的 值 ， 即 X= | 五, 马 …, 马 上 ， 假 定 有 
m 个 类 ， 分 别 用 Ci,C,,…,C。, 表 示 。 给 定 一 个 未 知 的 数据 样本 ， 若 NB 算法 将 未 知 的 样本 XX 分配 
给 类 C;,， 则 必 有 : 


PCIX) PC I):1 <j< m, i#) (6-10) 
根据 贝 叶 斯 定理 : 
pcpo-*0 0 (6-11) 


如 果 训 练 数据 集 有 较 多 属性 和 元 组 ， 则 PUIC) 的 计算 量 可 能 非常 大 。 为 减少 计算 量 , 通 常情 
况 下 都 假设 各 属性 的 取 值 是 互相 独立 的 ， 则 : 
PIG)=T [PCO) (6-12) 
k=1 

可 以 从 训练 数据 集 计算 得 到 先 验 概率 P(x | C)。 对 一 个 未 知 类 别 的 样本 X， 运 用 NB 算法 ， 先 
分 别 计 算出 该 样本 X 属 于 每 一 个 类 别 C 的 概率 PCY 1 C)P(C)， 然 后 比较 概率 值 的 大 小 ， 将 概率 
最 大 的 类 别 作为 该 样本 的 类 别 。 

当 满 足 各 属性 之 间 相 互 独立 的 前 提 时 ，NB 算 法 才 成 立 。 当 数据 集 满足 这 种 较 强 的 独立 性 假 
设 时 ， 该 算法 分 类 的 准确 性 较 高 ， 否 则 准确 性 可 能 较 低 。 除 此 之 外 ， 该 算法 不 输出 分 类 规则 。 

2. TAN 算法 


TAN 算法 在 NB 网 络 结构 的 基础 上 增加 属性 对 之 间 的 关联 ( 边 ) ， 通 过 发 现 属性 对 之 间 的 
依赖 关系 ， 从 而 有 效 地 降低 了 NB 算法 中 各 个 属性 之 间 相互 独立 的 假设 。 

该 方法 实现 的 步骤 是 : 用 结 点 表示 属性 ， 有 向 边 表示 各 个 属性 之 间 的 依赖 关系 ; 把 类 别 
属性 作为 根 结 点 ， 其 余 所 有 的 属性 作为 根 结 点 的 子 结 点 。 一 般 情 况 下 ， 用 虚线 表示 NB 所 需要 
的 边 ， 用 实 线 表示 新 增加 的 边 。 属 性 4 与 4 之 间 的 有 向 边 表示 它们 之 间 存 在 着 依赖 关系 ， 即 
属性 4 对 类 别 变量 C 的 影响 还 取决 于 属性 4 的 取 值 。 

增加 的 边 需要 满足 以 下 条 件 : 类 别 变量 没有 双亲 结 点 ， 每 个 属性 有 一 个 类 别 变 量 双 亲 结 
点 和 最 多 另外 一 个 属性 作为 其 双亲 结 点 。 

确定 这 组 关联 边 后 ， 就 可 以 计算 一 组 随机 变量 的 联合 概率 分 布 如 下 : 

PC 4 “4 0-POT PA (6-13) 

其 中 4 表示 4 的 双亲 结 点 。 TAN 算 法 考虑 了 n 个 属性 中 (- DD) 个 两 两 属性 之 间 的 关联 性 ， 
在 一 定 程度 上 降低 了 对 属性 之 间 独 立 性 的 假设 , 但 由 于 没有 考虑 到 属性 之 间 可 能 存在 的 其 他 
关联 性 ， 因 此 ， 在 很 大 程度 上 限制 了 该 算法 的 适用 范围 。 

贝 叶 斯 网 络 

贝 叶 斯 网 络 是 用 来 表示 变量 问 连接 概率 的 图 形 模式 ， 它 表示 多 个 指标 的 联合 分 布 ， 提 供 
了 一 种 自然 的 表示 因果 信息 的 方法 ， 用 来 发 现 数据 间 的 潜在 关系 。 贝 叶 斯 网 络 是 一 种 有 向 无 
环 图 ( Directed Acyclic Graph，DAG ) ， 图 中 结 点 表示 随机 变量 ， 结 点 间 的 有 向 边 表示 变量 间 
的 概率 依赖 关系 ， 依 赖 的 强度 或 者 说 不 确定 性 通过 条 件 概率 来 表示 。 
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贝 叶 斯 网 络 可 以 表示 成 在 随机 变量 集 ¥={ 玉 . 书 …, 互 } 上 的 一 个 二 元 组 ， 用 符号 G(B,P) 表 
示 ， 变 量 五 的 取 值 可 记 为 x;， 变 量 间 的 条 件 独立 性 可 表示 为 : TS: 和 | 如 ， 其 含义 为 在 给 定 的 
五 的 条 件 下 ， 斑 与 如 相互 独立 。 其 中 G(B,P) 由 两 部 分 构成 : 

(1) G 代 表 一 个 具有 n 个 结 点 的 有 向 无 环 图 ， 结 点 对 应 随机 变量 入 { 玉 , 束 …, 互 }， 结 点 变 
量 可 以 是 任何 问题 的 抽象 用 以 代表 属性 、 状 态 、 测 试 值 等 。 结 点 之 问 的 有 向 边 ( 弧 ) 反映 了 
变量 间 的 依赖 关系 ， 有 向 弧 箭 头 指向 的 结 点 称 为 子 结 点 ， 箭 尾 对 应 的 结 点 称 为 父 结 点 。 

(2 ) P 表 示 给 定 父 结 点 条 件 下 ， 每 个 结 点 的 条 件 概 率 分 布 ( Conditional Probability 
Distributing，CPD ) 条 件 概 率 分 布 ， 可 以 用 P(X; | Pa(20)) 来 描述 ， 其 中 Pa( 如 表示 结 点 古 的 父 节 
点 集合 。 

依据 马尔 科 夫 独立 性 假设 ， 贝 叶 斯 网 络 规定 图 中 的 任 一 结 点 蕊 条 件 独立 于 由 已 的 父 结 
点 给 定 的 非 互 后 代 结 点 构成 的 任何 结 点 子 集 ， 形 式 上 可 记 为 : yi, 1(X;; NonDescedents(X) | 
Pa(X))， 式 中 NonDescedents() 表 示 素 的 非 子 节点 。 有 向 无 环 图 G 即 代表 了 一 系列 的 条 件 独 立 
假设 ， 这 些 假 设 使 得 随机 变量 和 人 互 ,五 …: 马 的 联合 概率 分 布 具有 可 分 解 性 ， 这 大 大 减少 了 
确定 联合 分 布 的 参数 的 数目 ， 联 合 分 布 的 分 解 式 可 如 下 表示 : 


prow, XX}=T Pr le) (6-14) 


通过 引入 独立 关系 ， 联合 概率 分 布 可 以 被 分 解 成 更 小 的 因 式 ， 从 而 简化 知识 获取 和 先 验 
知识 的 建 模 过 程 ， 降 低 计 算 复 杂 度 。 

贝 叶 斯 网 络 的 结构 G 表 示 了 在 马尔 可 夫 独 立 性 假设 条 件 下 的 一 组 独立 性 假设 。 令 Ind(G) 表 
示 一 组 条 件 独立 关系 (如 185: 惫 1 2 ) ， 在 贝 叶 斯 网 络 中 ,往往 有 不 同 的 有 向 无 环 图 可 以 表 
示 相 同 的 条 件 独立 关系 ， 即 Ind(G)=Ind/(G')， 这 些 图 称 为 贝 叶 斯 网 络 等 价 类 。 贝 叶 斯 网 络 等 从 
类 可 用 部 分 有 向 图 ( partially directed graph，PDAG ) 表示 ，PDAG 中 有 向 边区 7 表示 贝 叶 斯 网 
络 等 价 类 中 所 有 的 DAG 均 含有 此 有 向 边 ，PDAG 中 的 无 向 边 革 >7 表 示 ， 贝 叶 斯 网 络 等 价 类 中 
部 分 DAG 的 边 的 方向 为 和 >*7， 部 分 为 YX， 所 有 的 PDAG 称 为 CPDAGs(Completed-PDAGCs)， 
它 包含 了 贝 叶 斯 网 络 中 的 所 有 等 价 类 。 


6.3.4 ”人 工 神经 网 络 


人 工 神经 网 络 (Artificial Neural Network，ANN ) 是 人 们 在 模拟 人 脑 处 理 问题 的 过 程 中 发 
展 起 来 的 一 种 新 型 的 信息 处 理 理论 ， 也 称 神经 网 络 ， 是 由 大 量 类 似 神经 元 相互 连接 构成 的 非 
线性 的 复杂 系统 。 神 经 网 络 基于 模仿 生物 大 脑 的 结构 和 功能 ， 采 用 数学 和 物理 方法 进行 研究 
而 构成 的 一 种 信息 处 理 系统 ， 通 过 调整 各 神经 元 之 间 的 连接 强度 ， 模 拟人 的 学 习 、 归 纳 和 分 
类 能 力 ， 广 泛 应 用 于 信号 处 理 、 模 式 识别 、 智 能 检测 及 其 他 工程 领域 。 

1. 人 工 神 经 元 模型 

常用 的 人 工 神 经 元 模型 主要 基于 模拟 生物 神经 元 信息 的 传递 特性 ， 即 输入 、 输 出 关系 。 
如 果 用 模拟 电压 表示 生物 神经 元 输入 、 输 出 脉冲 的 密度 ， 则 生物 神经 元 信息 传递 的 主要 特性 
可 以 用 图 6.7 的 模型 来 模拟 。 


202 | 大 数据 导论 : 关键 技术 与 行业 应 用 最 佳 实践 


五 


马 
图 6.7 ”人 工 神经 元 模型 
在 图 6.7 中 ， 瑟 (i 计 1,2,…,n) 表 示 加 于 输入 端 突 触 上 的 输入 信号 ; w 表 示 相 应 原 突 触 连接 权 
重 系数 ， 它 是 模拟 突 触 传递 强度 的 一 个 比例 系数 ; 习 表 示 突 触 后 信号 的 空间 累加 ;6 表示 神经 
元 的 阀 值 ; . 恋 示 神经 元 的 响应 函数 。 
此 人 工 神经 元 模型 的 数学 表达 式 为 : 
TO (6-15 ) 
7(7) (6-16) 
传递 函数 fx) 通常 是 非 线 性 函数 ， 比 如 阶 跃 函数 、S 状 曲线 等 ， 也 可 以 是 线性 函数 。 以 下 
是 一 些 常用 的 神经 元 非 线性 函数 。 


(1 ) 阔 值 型 函数 
此 模型 中 ， 神 经 元 没有 内 部 状态 ， 当 y, 取 0 或 1 时 ，ftw) 为 一 阶 跃 函数 ; 
1,x 宇 0 
mm (6-17) 
0, x<0 
当 ”% 取 -1 或 1 时 ，jt) 为 sgn 函 数 : 
1, x 三 0 
me (6-18) 
-Lx 0 
(2 ) S 型 函数 
通常 为 在 (0，1 ) 或 (-1，1 ) 内 连续 取 值 的 单调 可 微分 的 函数 。 常 用 响应 函数 为 型 
( Sigmoid ) 函数 : 
= (>0) (6-19) 


当 p 趋 于 无 穷 时 ，S 状 曲线 趋 近 于 阶 跃 函数 。 一 般 情 况 下 ，p 取 值 为 1。 
2. 人 工 神经 网 络 的 构成 
当 神 经 元 的 模型 确定 之 后 ， 一 个 神经 网 络 的 特性 和 能 力主 要 是 由 网 络 的 拓扑 结构 及 学 习 
方法 决定 的 。 按 照 不 同 的 神经 元 互联 模式 ， 神 经 网 络 主要 可 分 为 前 馈 网 络 、 反 馈 网 络 、 自 组 
织 网 络 和 随机 型 网 络 四 类 。 
@ 前 馈 网 络 : 网 络 可 划分 为 若干 层 ( 包括 输入 层 、 隐 含 层 和 输出 层 ) ， 一般 情 况 下 ， 第 
i 层 的 神经 元 只 接收 第 (i-1 ) 层 神 经 元 传递 的 信号 ， 各 神经 元 间 没 有 反馈 。 
@ 反馈 网 络 : 反馈 网 络 在 前 馈 网 络 的 基础 上 增加 了 反馈 连接 ， 可 以 是 异 反馈 也 可 以 是 自 
反馈 ， 同 时 网 络 中 还 可 以 有 计算 功能 的 隐 和 神经 元 。 
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@ 自 组 织 网 络 : 该 网 络 能 够 识别 环境 中 的 特征 ， 并 自动 聚 类 。 
@ 随机 型 网 络 : 在 网 络 运行 和 学 习 算 法 中 引入 的 随机 机 制 。 
3. 人 工 神经 网 络 的 学 习 
当 神 经 网 络 的 拓扑 结构 确定 后 ， 需 要 有 相应 的 学 习 方法 与 它 配合 ， 它 才 会 具备 某 些 智能 
特性 。 因 此 ， 人 工 神 经 网 络 研究 的 核心 问题 是 学 习 方 法 。 
对 于 人 工 神经 网 络 ， 它 的 适应 性 是 通过 学 习 实 现 的 ， 学 习 是 神经 网 络 研究 的 一 个 重要 内 
容 。 学 习 方 法 实质 上 就 是 网 络 连接 权 的 调整 方法 。 人 工 神经 网 络 一 般 通过 以 下 两 种 方法 确定 
连接 权 值 : 一 种 是 根据 具体 要 求 直接 计算 出 来 的 ， 比 如 Hopfield 网 络 的 优化 计算 就 是 运用 这 种 
方法 ; 另 一 种 是 通过 不 断 学 习 调整 得 到 的 ， 大 多 数 人 工 神经 网 络 都 运用 这 种 方法 。 
由 于 网 络 结构 和 功能 的 不 同 ， 学 习 方 法 也 是 各 种 各 样 的 ， 这 里 仅仅 介绍 人 工 神经 网 络 中 
一 些 比较 基本 的 、 常 用 的 学 习 规 则 。 
@ 修正 型 。 这 属于 一 种 有 导师 的 学 习 规 则 ， 连 接 权 调 整 的 依据 是 理想 处 理 的 结果 与 实际 
处 理 结 果 的 误差 值 。 通 过 不 断 地 减 小 误差 来 完成 整个 学 习 过 程 。 

@ Hebb 型 。 这 条 规则 的 思路 是 通过 连接 神经 元 的 状态 来 改变 权 值 。 神 经 元 只 有 两 种 状态 : 
“兴奋 ”和 “抑制 ”。 当 相 邻 的 两 个 处 理 单元 同时 处 于 “抑制 ”状态 时 ， 连 接 变 弱 。 

@ 随机 型 。 此 条 规则 中 ， 网 络 变量 的 调整 是 以 激励 函数 的 改变 为 准 的 。 其 中 的 变化 带 有 
一 定 的 随机 性 。 此 时 网 络 变量 可 以 是 权 值 ， 也 可 以 是 处 理 单元 的 状态 。 

@@ 竞争 型 。 是 指 在 无 导师 的 学 习 过 程 当中 ， 只 提供 训练 的 样本 ， 而 不 设计 输出 的 结果 ， 
处 理 单元 通过 自身 的 学 习 ， 进 入 到 相应 的 类 别 当中 。 处 理 单元 通过 相互 的 竞争 ， 只 
下 几 个 处 理 单元 处 于 “兴奋 ”的 状态 ， 以 感应 输入 信号 的 影响 。 

神经 网 络 的 主要 任务 是 对 外 部 世界 进行 建 模 ， 并 通过 学 习 使 模型 与 外 部 环境 充分 一 致 ， 
来 完成 特定 的 任务 。 不 同 的 网 络 类 型 使 用 不 同 的 学 习 方 法 可 以 获得 不 同 的 网 络 模型 ， 在 实际 
应 用 中 ， 需 要 根据 具体 应 用 的 特点 来 设计 合适 的 网 络 模型 。 

在 网 络 学 习 阶 段 ， 为 了 实现 输入 样本 与 其 相应 正确 类 别 的 对 应 ， 网 络 需 要 调整 权重 值 。 
神经 网 络 的 学 习 之 所 以 也 叫做 连接 学 习 ， 是 因为 网 络 主要 是 针对 其 中 的 连接 权重 进行 学 习 
的 。 图 6.8 表 示 的 是 一 个 典型 的 多 层 前 馈 神 经 网 络 。 

输入 层 隐 含 层 输出 层 


图 6.8 一 个 多 层 前 馈 神 经 网 络 
由 于 人 工 神经 网 络 学 习 时 间 比 较 长 ， 因 此 它 仅 仅 适 用 于 时 间 容 许 的 应 用 场合 ， 这 在 一 定 
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程度 上 限制 了 它 的 应 用 。 此 外 它 还 需要 一 些 关键 参数 ， 如 网 络 结构 等 ， 这 些 参 数 通常 需要 经 
验 才能 够 有 效 地 确定 ; 且 神 经 网 络 的 输出 结果 也 是 比较 难 理解 的 。 

人 工 神经 网 络 的 优点 就 是 对 未 知 的 数据 具有 较 好 的 预测 、 分 类 能 力 ， 而 且 对 噪声 数据 有 
较 好 的 适应 能 力 。 目 前 不 断 有 人 提出 一 些 从 神经 网 络 中 挖掘 出 ( 知识 ) 规则 的 新 算法 。 


6.3.5 ”支持 向 量 机 


支持 向 量 机 ( Support Vector Machine，SVM ) 方法 是 建立 在 统计 学 习 理 论 的 VC 维 理论 和 
结构 风险 最 小 原理 基础 上 的 ， 根 据 有 限 的 样本 信息 在 模型 的 复杂 性 ( 即 对 特定 训练 样本 的 学 
习 精 度 ) 和 学 习 能 力 ( 即 无 错误 地 识别 任意 样本 的 能 力 ) 之 间 寻 求 最 佳 折 误 ， 以 求 获得 最 好 
的 推广 能 力 。 

支持 向 量 机 是 在 线性 可 分 条 件 下 的 最 优 分 类 面 发 展 起 来 的 ， 对 于 常见 的 二 分 类 问题 ， 假 
设 有 训练 集 (zy ) 二 1,2…nxwERyE{-1.1}， 可 以 被 一 个 超 平面 分 开 ， 如 图 6.9 所 示 ， 两 种 
图 标 代表 两 种 类 别 ，h:(w x x)+5=0 表 示 分 类 线 ， 两 类 的 边界 样本 都 在 h,， 有 ,两 条 直线 上 ， 且 
两 条 直线 都 是 与 h 平 行 的 。 两 条 直线 的 之 间 的 距离 表示 两 类 样本 点 之 间 的 距离 。 最 优 h 既 能 将 
两 个 类 别 毫 无 偏差 的 区 分 ， 又 能 使 分 类 间隔 最 大 。 


图 6.9 最 优 分 类 超 平面 


可 以 用 以 下 公式 表示 直线 hh,，hh: 
VI(wx%)+6]-1=0,1=1,2,..., 7 (6-20) 
2 
两 类 样本 之 间 的 分 类 距离 margin=2/||、 其 中 使 |*| 最 小 的 分 类 线 就 是 最 优 分 类 线 。 支 
持 向 量 是 指 两 类 样本 中 离 分 类 面 最 近 的 超 平面 上 的 点 ， 即 如， 加 上 的 点 就 是 支持 向 量 。 
1. 线性 可 分 SVM 
由 上 可 知 ， 超 平面 (wx)+5=0 能 将 两 类 样本 正确 区 分 开 来 ， 使 得 分 类 间隔 最 大 的 优化 问 
题 就 表示 为 : 
ming(w)= 出 w= ww 


[wxx)+b] -1 0, 12,...,7 (6-21) 
公 外 中 约束 条 件 和 目标 本 疾 帮 站 条件。 故 其 具有 惟一 的 全 局 解 且 值 最 小 。 为 了 导出 
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原始 问题 的 对 偶 问 题 ， 引入 了 Lagrange 函 数 : 
L(w b, 中 -Dotted 1} (6-22 ) 
其 中 a=(a,a,… Wp 因此 ， 我 们 得 到 原 问 题 的 对 偶 问题 : 


nin Pry), aa 
jl 


i=1j=1 


满足 六 ax=0， a;>0, 1=1,2,…, (6-23) 
7=1 


求解 上 面 的 凸 二 次 规划 问题 可 以 得 到 解 z-(ar，。 ar， 计算 way%， 选取 a* 的 一 个 正 
分 量 a;， 据 此 计算 : 


by a V(XX%) (6-24) 
构造 分 化 超 平面 (wxx ) +5'=0， 由 此 求 得 决策 函数 ， 
AL)=sgn( Dy a(xixx)+b") (6-25) 
2. 线性 不 可 分 SVM 
有 些 样 本 集 在 线性 条 件 下 是 不 能 够 被 正确 分 类 的 。 但 是 可 以 放宽 正确 分 类 的 条 件 ， 只 要 
这 个 样本 点 落 在 能 够 被 正确 分 类 点 的 附近 ， 就 可 以 认为 这 个 样本 点 能 够 被 “正确 ”分 类 。 这 
就 是 引入 松弛 变量 的 思想 ， 那么 问题 的 表述 形式 变 成 : 
FI(wWX%)+b]-1+é, 0; 6;20,1=1,2,n (6-26) 
寻找 目标 函数 变 为 : 
on-Blol rs (6-27) 
为 了 避免 6 取 值 太 大 降低 解 的 质量 ， 引 入 了 可 调 参 数 C 对 没有 正确 分 类 样本 进行 惩罚 ， 
C 越 大 对 错误 的 惩罚 越 重 。 常 用 Lagrange 方 法 将 上 式 最 优 分 类 面 问题 转化 为 对 偶 问 题 ， 在 


六 za= 0 和 0 和 as 科 Ci=L 2…,a 的 约 东 下 ， 用 与 线性 可 分 情况 下 相同 方法 求解 这 一 优化 问题 ， 


7=1 


同样 得 到 一 个 二 次 函数 极 值 问 题 ， 得 到 最 优 分 类 判别 函数 : 
f(x)=sgn{ Ww a+b"}=sgn(D pals)+6) (6-28) 
3. 非 线 性 SVM 


非 线性 SVM 的 基本 思想 是 通过 事先 确定 的 非 线性 映射 将 输入 向 量 x 映 射 到 一 个 高 维特 征 空 
间 ( Hilbert 空 间 ) 中 ,然后 在 此 高 维 空间 中 构建 最 优 超 平面 。 

从 上 一 节 对 线性 SVM 的 讨论 中 可 以 看 出 ， 向 量 之 间 只 进行 点 积 运算 。 那 么 映射 到 的 高 维 
空间 中 也 只 需要 内 积 运算 ， 但 是 在 高 维 空间 进行 内 积 运算 是 一 个 很 繁琐 的 过 程 。 如 果 能 够 在 
低 维 空间 就 能 计算 出 高 维 内 积 ， 那 么 可 以 减少 很 多 工作 。 研 究 人 员 发 现存 在 某 种 类 型 的 函数 
能 够 刚好 满足 上 面 的 条 件 。 

根据 Hilbert-Schmidt 原 理 ， 只 要 一 种 核 函 数 满足 Mercer 条 件 ， 即 对 任意 对 称 函 数 K(x， 
x')， 它 是 某 个 特征 空间 中 的 内 积 运算 的 充 要 条 件 为 : 对 任意 的 pCO#0 上 且 ， 有 : [wdx<o 
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[Kx, mepcopooanae>0 (6-29 ) 
此 时 ， 二 次 规划 问题 的 目标 函数 变 为 : 
co-> ax) (6-30) 
对 应 的 分 类 决策 函数 可 以 表示 为 : 
f(D =sgn{wxx+b}=sgn(S 了 arC0xX)+D (6-31) 


4. 核 函 数 

支持 向 量 机 的 关键 在 于 核 函 数 。 低 维 空间 向 量 集 通常 难于 划分 ， 解 决 的 方法 是 将 它们 映 
射 到 高 维 空间 。 但 是 这 个 办 法 带 来 的 困难 就 是 计算 复杂 度 的 增加 ， 而 核 函 数 正好 巧妙 地 解决 
了 这 个 问题 。 也 就 是 说 ， 只 要 选用 适当 的 核 函 数 ， 就 可 以 得 到 高 维 空间 的 分 类 函数 。 在 支持 
向 量 机 理论 中 ， 采 用 不 同 的 核 函 数 将 导致 不 同 的 算法 。 

选择 不 同形 式 的 核 函 数 就 可 以 生成 不 同 的 支持 向 量 机 ， 常 用 的 有 以 下 几 种 。 

(1 ) 线性 核 函数 ， Kl%y)=xxy。 

(2 ) 多 项 式 核 函数 ，Ktw 罗 =[Gxxy)+1] ，d 为 参数 ， 用 该 核 函 数 的 SVM 是 一 个 多 项 式 分 
类 器 。 
(3 ) 高 斯 核 函 数 ，K(%, 力 =exp(|x-y| X26”)， 用 该 核 函 数 的 SVM 是 一 个 径 向 基 范 数 分 
器 。 

(4) Sigmoid 核 函数 ， Kt 办 =tanh(kGexy)-5)， 用 该 核 函 数 的 SVM 是 一 个 两 层 的 多 层 感 知 
器 神经 网 络 。 

由 于 确定 核 函 数 的 已 知 数据 也 存在 一 定 的 误差 ， 考 虑 到 推广 性 问题 ， 因 此 引入 了 松弛 系数 
以 及 惩罚 系数 两 个 参 变量 来 加 以 校正 。 在 确定 了 核 函 数 基础 上 ， 再 经 过 大 量 对 比 实验 等 将 这 两 
个 系数 取 定 ， 该 项 研究 就 基本 完成 ， 适 合 相关 学 科 或 业务 内 应 用 ， 且 有 一 定 能 力 的 推广 性 。 

当然 误差 是 绝对 的 ， 不 同学 科 、 不 同 专业 的 要 求 不 一 。 目 前 ， 支 持 向 量 机 已 经 在 许多 令 
域 (生物 信息 学 ， 文 本 分 类 和 手写 识别 等 ) 都 取得 了 成 功 的 应 用 。 


6.3.6 ”其 他 分 类 方法 


除了 上 述 分 类 方法 以 外 ,常见 的 其 他 分 类 方法 还 包括 k- 最 临近 分 类 、 基 于 案例 的 推理 、 
遗传 算法 、 粗 糙 集 、 模 糊 集 等 ， 下 面 简单 介绍 这 五 种 分 类 方法 。 

1. k- 最 临近 分 类 

最 临近 分 类 是 一 种 基于 类 比 学 习 的 分 类 方法 。 设 用 n 维 数值 属性 描述 训练 样本 ， 每 个 样 
本 对 应 a 维 空间 的 一 个 点 ， 则 所 有 的 训练 样本 都 包含 在 n 维 空间 中 。 对 于 一 个 给 定 的 未 知 样 
本 ，k- 最 临近 分 类 法 首先 在 n 维 模式 空间 中 进行 搜索 ， 然 后 按照 接近 程度 选择 个 训练 样本 ， 这 
k 个 训练 样本 是 最 接近 给 定 的 未 知 样本 的 ， 即 为 未 知 样本 的 个 “近邻 ”。 通 常用 欧 几 里 德 距离 
定义 “临近 性 ”。 设 空间 中 两 个 点 入 (wx2…2) 和 二 94y2…y)， 则 它们 的 欧 几 里 德 距离 为 : 


d(x, =| Gy (6-32) 
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在 这 k 个 最 接近 未 知 样本 的 训练 样本 中 ， 选 择 最 公共 的 类 作为 未 知 样本 的 类 。 当 k= 1 时 ， 
则 选择 与 未 知 样本 最 临近 的 训练 样本 的 类 作为 未 知 样本 的 类 。 

当 存放 的 训练 样本 数量 很 大 时 ， 该 方法 的 计算 开销 较 大 。 最 临近 分 类 可 以 返回 给 定 的 未 
知 样本 实数 值 预测 ， 这 是 最 临近 分 类 的 预测 作用 - 在 这 种 情况 下 ， 最 临近 分 类 返回 的 是 与 未 
知 样本 的 个 最 临近 训练 样本 实数 值 标号 的 平均 值 。 

2. 基于 案例 的 推理 


基于 案例 的 推理 ( CBR ) 分 类 法 是 一 种 基于 要 求 的 分 类 方法 。 该 方法 存放 的 训练 样本 是 
较为 复杂 的 符号 描述 ， 这 与 最 临近 分 类 法 将 训练 样本 作为 欧 氏 空间 中 的 点 存放 的 方式 不 同 。 
CBR 的 应 用 比较 广泛 ， 在 商务 、 工 程 和 法 律 领域 等 都 有 应 用 。CBR 的 商务 应 用 包括 顾客 服务 
台 问 题 求解 、 案 例 描述 产品 有 关 的 诊断 问题 等 。CBR 在 工程 和 法 律 方面 的 案例 分 别 是 技术 设 
计 和 合法 规则 。 

对 于 一 个 给 定 的 待 分 类 的 未 知 案例 ，CBR 首 先 检 查 是 否 有 一 个 相同 训练 样本 存在 ， 若 找 
到 ， 则 返回 训练 样本 中 所 包含 的 解决 方法 ; 若 没有 相同 训练 样本 存在 ， 就 寻找 与 待 分 类 的 未 
知 例 的 组 成 有 相似 之 处 的 训练 样本 ， 从 某 种 意义 上 讲 ， 这 些 训练 样本 也 是 新 示例 的 最 近邻 。 
如 果 案例 可 以 用 图 来 表示 的 话 ， 那 么 这 就 涉及 到 与 未 知 案例 相似 的 子 图 的 搜索 。 基 于 案例 的 
推理 试图 对 最 近邻 的 训练 案例 进行 合并 以 给 出 一 个 〈 针 对 新 案例 ) 解决 方法 。 若 各 案例 返回 
方法 不 兼容 ， 必 要 时 还 必须 回溯 搜索 其 他 的 解决 方法 。 基 于 案例 的 推理 器 可 以 利用 背景 知识 
和 问题 求解 策略 来 帮助 获得 一 个 可 行 的 解决 方法 。 

基于 案例 的 推理 分 类 方法 中 ,存在 的 问题 包括 : 寻找 相似 性 度量 方法 ( 如 子 图 匹配 ) 、 
开发 快速 索引 技术 和 求解 方法 的 合并 等 。 

3. 遗传 算法 

遗传 算法 是 一 种 借鉴 自然 进化 基本 思想 的 随机 化 搜索 方法 。 它 是 借鉴 了 进化 生物 学 中 的 
一 些 现象 (包括 遗传 、 突 变 、 自 然 选择 、 杂 交 等 ) 而 发 展 起 来 的 。 该 算法 具有 以 下 特点 : 直 
接 作用 于 结构 对 象 ， 对 函数 的 连续 性 以 及 函数 的 求 导 没有 限制 ; 存在 内 在 的 并 行 性 ; 具备 较 
好 的 全 局 寻找 最 优 解 的 特性 等 。 遗 传 算法 运用 概率 化 的 寻求 最 优 解 的 方法 ， 不 必 制 定 明确 的 
规则 ， 能 在 搜索 过 程 中 自动 获取 和 积累 有 关 搜 索 空 间 的 知识 ， 并 自 适应 地 控制 搜索 过 程 以 求 
得 最 优 解 。 同 时 对 搜索 方向 进行 自 适应 地 调整 。 

遗传 算法 一 般 的 操作 步骤 如 下 9 。 

(1 ) 首先 进行 初始 化 操作 。 初 始 进 化 代数 计数 器 设 为 二 0， 最 大 进化 代数 设 为 了"， 初 始 群 
体 记 为 P(0)， 该 初始 群体 是 随机 生成 的 ， 其 中 包含 有 M 个 个 体 。 

(2 ) 个 体 评价 操作 。 通 常用 适应 度 对 个 体 进行 评价 ， 该 步骤 就 是 对 群体 P() 中 的 每 个 个 
体 的 适应 度 进行 计算 。 

(3 ) 选择 运算 操作 。 该 操作 将 选择 作用 在 群体 上 的 算 子 。 选 择 的 目的 是 把 优化 的 个 体 
遗传 到 下 一 代 或 者 通过 配对 交叉 产生 新 的 个 体 ， 然 后 再 遗传 到 下 一 代 。 该 操作 是 建立 在 个 体 
评价 操作 上 的 ， 即 是 在 个 体 适应 度 评估 的 基础 上 进行 的 。 


四 http://baike.baidu.com/view/45853.htm?func=retitle 
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(4 ) 交叉 运算 操作 。 将 交叉 算 子 作 用 于 群体 ， 从 而 生成 新 的 个 体 。 交 叉 算 子 在 该 操作 
中 具有 关键 性 的 作用 ， 也 是 遗传 算法 的 核心 。 

(5 ) 变异 运算 操作 。 改 动 一 些 群 体 中 个 体 串 的 某 些 基因 座 上 的 基因 值 ， 也 就 是 在 群体 
中 运用 变异 算 子 。 

下 一 代 和 群体 Pt+1 就 是 在 群体 Pt 经 过 选择 、 交 叉 、 变 异 操作 后 得 到 的 。 

(6 ) 算法 终止 条 件 的 判断 。 算法 在 运行 的 过 程 中 ,会 对 终止 条 件 进行 判断 ， 若 满足 终 
止 条 件 ， 遗 传 算法 操作 终止 。 即 若 P>T， 则 算法 终止 ， 并 输出 最 优 解 。 最 优 解 就 是 在 进化 过 程 
中 得 到 的 具有 最 大 适应 度 的 个 体 。 

遗传 算法 是 计算 机 科学 人 工 智 能 领域 中 用 于 解决 最 优化 的 一 种 启发 式 搜索 算法 ， 是 进化 
算法 的 一 种 ， 这 种 启发 式 通常 用 来 生成 有 用 的 解决 方案 来 优化 和 搜索 问题 。 遗 传 算法 在 适应 
度 函 数 选择 不 当 的 情况 下 有 可 能 收敛 于 局 部 最 优 ， 而 不 能 达到 全 局 最 优 。 

4. 粗糙 集 

粗糙 集 理 论 可 以 应 用 于 分 类 问题 ， 以 帮助 找 出 噪声 数据 或 不 准确 数据 中 所 存在 的 结构 关 
系 。 它 只 能 处 理 离散 值 属性 ， 而 连续 值 属性 必须 在 进行 离散 化 后 才能 运用 粗糙 集 理论 进行 处 理 。 

对 于 给 定 的 训练 数据 集 ， 首 先 建立 数据 内 部 的 等 价 类 。 形 成 等 价 类 的 所 有 数据 样本 是 不 
作 任何 区 分 的 ， 也 就 是 说 ， 对 于 描述 数据 的 属性 ， 这 些 样本 是 等 价 的 。 粗 糙 集 理论 就 是 基于 
这 些 等 价 类 的 建立 。 通 常情 况 下 ， 在 给 定 的 数据 中 ， 有 些 类 不 能 精确 地 被 可 用 的 属性 区 分 。 
在 这 种 情况 下 ， 可 以 运用 粗糙 集 理 论 对 这 些 类 进行 近似 地 定义 。 给 定 类 C 的 粗糙 集 定义 用 两 
个 集合 近似 : C 的 下 近似 和 C 的 上 近似 。 根 据 关 于 属性 的 知识 ， 如 果 数 据 样 本 明确 属于 C， 则 
这 些 数据 样本 组 成 C 的 下 近似 ; 如 果 数 据 样本 不 可 能 被 认为 不 属于 C， 则 所 有 这 些 数据 样本 组 
成 C 的 上 近似 ， 如 图 6.10 所 示 ， 其 中 一 个 矩形 区 域 表示 一 个 等 价 类 。 判 定 规则 可 以 对 每 个 类 产 
生 ， 这 些 规则 一 般 用 判定 表 来 表示 。 
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|| 二 _…… C 的 上 边界 


图 6.10 ”一 个 粗糙 集 的 示意 图 

可 以 运用 粗糙 集 来 进行 特征 归 约 、 相 关 分 析 等 操作 ， 从 给 定 的 数据 集中 寻找 出 能 够 描述 
所 有 数据 特征 概念 的 最 小 属性 集合 本 身 就 是 一 个 NP- 难 问题 。 人 们 提出 了 一 些 可 以 帮助 减少 
其 计算 复杂 度 的 算法 ， 例 如 利用 可 分 辨 矩阵 ， 该 窍 阵 储存 每 对 数据 样本 之 间 属 性 取 值 的 差别 
信息 。 借 助 可 分 辨 矩阵 就 无 需 搜索 这 个 数据 样本 集合 ， 而 只 需要 搜索 该 矩阵 ， 就 可 以 帮助 发 
现 元 余 属性 。 

5. 模糊 集 

基于 规则 的 系统 应 用 于 分 类 ， 处 理 连 续 值 时 是 间断 的 ， 这 是 基于 规则 分 类 存在 的 不 足 。 
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例如 对 于 顾客 信用 申请 批准 ， 应 用 以 下 规则 : 批准 一 个 工作 时 间 为 二 年 或 二 年 以 上 且 收 入 较 
高 (如 : icome50= 玉 ) 的 人 的 信用 申请 。 
IF(years_employed >2)A(income>50K)THEN:.credit=approved 

由 以 上 规则 ， 一 个 工作 时 间 为 二 年 以 上 的 顾客 ， 若 他 的 收入 大 于 50K， 则 他 的 信用 申请 
将 被 批准 ， 但 车 他 的 收入 为 49K， 则 他 的 申请 就 得 不 到 批准 。 

这 样 的 处 理 显 然 是 不 合理 的 。 在 这 种 情况 下 ， 引 入 模糊 逻辑 有 利于 解决 这 一 问题 。 由 于 
模糊 逻辑 可 以 利用 0.0 到 1.0 之 间 的 实数 来 对 应 每 个 特定 值 属 于 某 个 给 定 类 别 的 程度 ， 因 此 这 里 
利用 模糊 逻辑 就 可 以 描述 “高 收入 ”这 样 一 个 模糊 概念 ， 而 无 需 使 用 大 于 50K 的 这 样 一 个 硬 
性 标准 。 

在 进行 分 类 的 数据 挖掘 系统 中 ， 引 用 模糊 逻辑 概念 ， 具 有 在 较 高 的 抽象 层次 上 进行 数据 
挖掘 的 优势 ， 这 体现 了 模糊 逻辑 在 分 类 中 具有 非常 重要 的 作用 。 基 于 规则 系统 运用 模糊 逻辑 
一 般 包括 以 下 几 个 操作 。 

(1) 属性 值 需 转 化 成 模糊 值 ， 如 图 6.11 所 示 ， 就 是 将 一 个 连续 取 值 属性 income 映 射 到 离 
散 类 别 中 ( 低 收入 、 中 等 收入 和 高 收入 ) ,并 计算 出 相应 的 模糊 值 ( 概念 隶属 度 ) 。 模 糊 迎 
辑 系统 通常 都 会 提供 相应 操作 工具 来 帮助 用 户 完 成 这 一 映射 工作 。 


水 


核 机 来 属 度 低 收 入 中 等 收入 高 收入 


0 


10K 20K 30K 40K 50K GoK Gok 70K 收入 
图 6.11 ”收入 属性 的 模糊 函数 

(2 ) 对 于 一 个 给 定 的 新 样本 ， 可 以 应 用 多 个 规则 。 在 这 些 被 应 用 的 规则 中 ， 每 一 个 规 
则 都 贡献 一 票 给 概念 隶属 度 的 计算 。 通 常情 况 下 ， 要 得 到 最 终 的 结果 ， 需 要 累加 每 个 预测 类 
别 的 相应 隶属 度 ， 即 模糊 值 。 

(3 ) 系统 返回 在 步骤 ( 2 ) 中 得 到 的 隶属 度 总 和 。 可 以 对 每 个 隶属 度 增加 一 个 权重 ， 即 
每 个 隶属 度 乘 以 相应 的 权重 值 ， 然 后 再 进行 累加 操作 。 依 赖 模糊 隶属 函数 是 比较 复杂 的 ， 其 
计算 可 能 也 很 复杂 。 

目前 ， 模 糊 集 分 类 法 已 经 应 用 到 许多 领域 中 ， 比 如 健康 医疗 和 金融 保险 等 领域 。 


6.3.7 回归 


回归 分 析 ( regression analysis) 是 确定 两 种 或 两 种 以 上 变量 间 相 互 依赖 的 定量 关系 的 一 种 
统计 分 析 方 法 。 回 归 分 析 运 用 十 分 广泛 ， 它 按照 涉及 自 变量 的 多 少 ， 可 分 为 一 元 回归 分 析 和 
多 元 回归 分 析 ; 按照 自 变量 和 因 变 量 之 间 的 关系 类 型 ， 可 分 为 线性 回归 分 析 和 非 线性 回归 分 
析 。 如 果 在 回归 分 析 中 ， 只 包括 一 个 自 变量 和 一 个 因 变量 ， 且 二 者 的 关系 可 用 一 条 直线 近似 
表示 ， 这 种 回归 分 析 称 为 一 元 线性 回归 分 析 。 如 果 回 归 分 析 中 包括 两 个 或 两 个 以 上 的 自 变 
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量 ， 且 因 变 量 和 自 变量 之 间 是 线性 关系 ， 则 称 为 多 元 线性 回归 分 析 。 
1. 线性 和 多 元 回归 


对 一 个 连续 数值 的 预测 可 以 利用 统计 回归 方法 所 建 的 模型 来 实现 。 线 性 回归 是 一 种 最 简 
单 的 回归 方法 ， 利 用 一 条 直线 来 描述 相应 的 数据 模型 。 二 元 回归 模型 的 因 变量 Y 可 用 自 变量 X 
的 线性 函数 表示 ， 如 下 所 示 : 
Ea+pX (6-33) 
其 中 7 的 方差 为 常数 ，a 和 是 回归 系数 ， 分 别 表示 直线 在 3 币 上 的 截 距 和 直线 的 斜率 。 
可 以 运用 最 小 二 乘法 对 这 些 系数 进行 求解 ， 使 得 实际 数据 与 该 直线 的 估计 之 间 误 差 最 小 。 给 
定 s 个 样本 或 形 如 Gi.y), Ga) .Ga 的 数据 点 ， 回 归 系 数 w 和 可 用 如 下 公式 计算 : 
VD -D 
6= 所 一 一 一 (6-34) 


a=y- Px (6-35) 
其 中 是 x, zz, .… ,x 的 平均 值 ， 了 是 yi, ,, … ,了 的 平均 值 。 
多 元 回归 是 线性 回归 的 扩展 ， 涉 及 到 多 个 自 变 量 。 因 变量 7 可 以 是 一 个 多 维特 征 向 量 的 
线性 函数 。 基 于 两 个 预测 属性 或 变量 马 ， 马 的 多 元 回归 模型 的 例子 如 下 。 
Y=a+pB.X+pB TD (6-36) 
同 理 ， 利 用 最 小 二 乘法 可 以 获得 a，p, 和 p, 的 数值 。 
2. 非 线性 回归 


通过 在 基本 的 线性 回归 模型 公式 中 添加 高 阶 项 ( 项 的 次 数 大 于 1 ) ， 得 到 多 项 式 的 回归 
模型 。 一 般 运 用 变量 转换 方法 将 非 线性 模型 转换 为 能 够 应 用 最 小 二 乘法 来 求解 的 线性 模型 。 
现 有 一 个 如 下 公式 的 三 阶 多 项 式 : 


=a+p X+P,X+P,X (6-37) 
为 了 将 其 用 转换 为 线性 回归 模型 ， 可 以 增加 两 个 新 变量 ， 公 式 如 下 : 
年 石 了 (6-38 ) 
公式 可 以 转换 成 线性 形式 ， 如 下 所 示 : 
Yatp Xtp, tp Xs (6-39 ) 


这 样 ， 利 用 最 小 二 乘法 就 可 以 获得 这 一 公式 的 各 项 系数 : a、P,、p,、p;。 有 一 些 模型 本 
身 就 是 非 线性 不 可 分 的 ， 对 于 这 些 情况 ， 若 想得到 最 小 二 乘 情况 下 的 近似 ， 可 能 需要 通过 对 
更 复杂 的 公式 进行 计算 。 

3. 其 他 回归 模型 


对 于 连续 取 值 的 函数 ， 可 以 运用 线性 回归 对 其 建立 模型 。 线 性 回归 因 其 较为 简单 的 特点 
而 得 到 了 广泛 地 应 用 。 对 于 离散 取 值 变量 ， 可 以 运用 广义 线性 模型 对 其 进行 回归 建 模 。 在 广 
义 线性 模型 中 ， 因 变量 7 的 变化 速率 是 自 变 量 X 均 值 的 一 个 函数 ， 而 线性 回归 中 因 变 量 7 的 变 
化 速率 是 一 个 常数 ， 这 是 两 者 的 一 个 区 别 。 常 见 的 广义 线性 模型 有 对 数 回归 和 泊 松 回归 。 其 
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中 对 数 回归 模型 是 以 一 些 事件 发 生 的 概率 作为 自 变量 的 线性 回归 模型 ; 泊 松 回归 模型 主要 描 
述 数据 出 现 次 数 ， 因 为 这 些 数据 的 出 现 次 数 常常 表现 为 泊 松 分 布 。 


和 6.4 聚 类 分 析 


聚 类 分 析 旨 在 发 现 紧密 相关 的 观测 值 群 组 ， 使 得 与 属于 不 同 簇 的 观测 值 相 比 ， 属 于 同一 
簇 的 观测 值 相互 之 间 尽 可 能 相似 。 相 异 度 是 基于 描述 对 象 的 属性 值 来 计算 的 ， 距 离 是 经 常 采用 
的 度量 方式 。 聚 类 分 析 源 于 许多 研究 领域 ,包括 数据 挖掘 、 统 计 学 、 生 物 学 以 及 机 器 学 习 。 

本 节 将 介绍 一 些 常用 的 聚 类 分 析 方法 ， 以 及 数据 对 象 间距 离 的 具体 计算 过 程 ， 该 计算 
方法 的 依据 是 数据 对 象 的 属性 。 通 常 聚 类 方法 主要 有 : 划分 方法 、 层 次 方法 、 基 于 模型 的 方 
法 、 基 于 密度 的 方法 、 基 于 网 格 的 方法 和 双 聚 类 方法 等 。 


6.4.1 基本 概念 


聚 类 是 数据 挖掘 、 模 式 识别 等 研究 中 的 一 个 重要 内 容 ， 在 识别 数据 的 内 在 结构 方面 具有 
极其 重要 的 作用 。 聚 类 主要 应 用 于 模式 识别 中 的 语音 识别 、 字 符 识别 等 ， 机 器 学 习 中 的 聚 类 
算法 应 用 于 图 像 分 割 和 机 器 视觉 图 像 处 理 中 聚 类 用 于 数据 压缩 和 信息 检索 。 聚 类 的 男 一 个 
主要 应 用 是 数据 挖掘 ( 多 关系 数据 挖掘 ) 、 时 空 数据 库 应 用 ( GIS 等 ) 、 序 列 和 异类 数据 分 析 
等 。 此 外 ， 聚 类 还 应 用 于 统计 科学 ,对 生物 学 、 心 理学 、 考 古 学 、 地 质 学 、 地 理学 以 及 市 场 
营销 等 研究 也 都 有 重要 的 作用 。 

一 个 聚 类 的 经 典 定义 : 一 个 类 簇 内 的 实体 是 相似 的 ， 不 同类 簇 的 实体 是 不 相似 的 ; 一 个 
类 簇 是 测试 空间 中 点 的 汇聚 ， 同 一 类 簇 的 任意 两 个 点 间 的 距离 小 于 不 同类 簇 的 任意 两 个 点 间 
的 距离 ;类 簇 可 以 描述 为 一 个 包含 密度 相对 较 高 的 点 集 的 多 维 空间 中 的 连通 区 域 ， 它 们 借助 
包含 密度 相对 较 低 的 点 集 的 区 域 与 其 他 区 域 ( 类 簇 ) 相 分 离 。 

事实 上 ， 聚 类 是 一 个 无 监督 的 分 类 ， 它 没有 任何 先 验 知 识 可 用 。 

典型 的 聚 类 过 程 主要 包括 数据 ( 或 称 之 为 样本 或 模式 ) 准备 、 特 征 选 择 和 特征 提取 、 接 
近 度 计算 、 聚 类 ( 或 分 组 ) 及 对 聚 类 结果 进行 有 效 性 评估 等 步骤 。 

(1) 数据 准备 。 包 括 特征 标准 化 和 降 维 。 

(2 ) 特征 选择 。 从 最 初 的 特征 中 选择 最 有 效 的 特征 ， 并 将 其 存储 于 向 量 中 。 

(3 ) 特征 提取 。 通 过 对 所 选择 的 特征 进行 转换 形成 新 的 突出 特征 。 

(4 ) 聚 类 。 首 先 选择 合适 特征 类 型 的 某 种 距离 函数 ( 或 构造 新 的 距离 函数 ) 进行 接近 
程度 的 度量 ， 而 后 执行 聚 类 或 分 组 。 

(5 ) 聚 类 结果 评估 。 是 指 对 聚 类 结果 进行 评估 。 

评估 主要 有 3 种 : 外 部 有 效 性 评估 、 内 部 有 效 性 评估 和 相关 性 测试 评估 。 

没有 任何 一 种 聚 类 算法 可 以 普遍 适用 于 各 种 多 维 数据 集 所 呈现 出 来 的 多 种 多 样 的 结构 。 
通常 ， 需 要 根据 实际 的 情况 选择 较为 合适 的 聚 类 分 析 算法 ， 比 如 选择 时 要 考虑 应 用 所 涉及 的 
数据 类 型 、 聚 类 的 目的 、 具 体 应 用 要 求 等 因素 。 根 据 数据 在 聚 类 中 的 积聚 规则 以 及 应 用 这 些 
规则 的 方法 ， 有 多 种 聚 类 算法 。 
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6.4.2 ”划分 方法 


对 于 一 个 给 定 的 包含 "个 数据 对 象 的 数据 库 ， 要 把 其 中 的 对 象 分 成 K 个 聚 类 ， 划 分 方法 就 
是 运用 一 些 相 关 的 算法 将 对 象 集合 划分 成 k 份 (k<n ) ， 其 中 每 个 划分 表示 一 个 聚 类 。 较 好 的 
聚 类 划分 体现 在 : 属于 一 个 聚 类 中 的 对 象 是 “相似 ”的 ， 而 属于 不 同 聚 类 中 的 对 象 是 “不 相 
似 ” 的 。 通 常 ， 要 求 所 得 到 的 聚 类 使 得 客观 划分 标准 ( 常 称 为 相似 函数 ， 如 距离 ) 最 优化 以 
达到 较 好 的 聚 类 划分 效果 。 

比较 常用 的 划分 方法 包括 K-Means 、k-Medoids 、EM 算 法 等 ， 以 及 一 些 在 这 些 算法 的 基 
础 上 做 了 改进 的 算法 。 

1. k-Means 算 法 


k-Means 算 法 以 为 参数 ， 把 n 个 对 象 分 为 个 徐 ， 以 使 类 内 具有 较 高 的 相似 度 ， 而 类 间 的 
相似 度 最 低 。 相 似 度 的 计算 根据 一 个 徐 中 对 象 的 平均 值 ( 被 看 作 簇 的 重心 ) 来 进行 。 

k-Means 算 法 的 处 理 流 程 是 : 首先， 随机 地 选择 k 个 对 象 ， 每 个 对 象 初始 地 代表 了 一 个 
簇 中 心 ; 对 剩余 的 每 个 对 象 ， 根 据 其 与 各 个 簇 中 心 的 距离 ， 将 它 赋 给 最 近 的 簇 ; 然后 重新 计 
算 每 个 簇 的 平均 值 ; 不 断 重复 这 个 过 程 直到 准则 函数 收敛 。 通 常 采用 均 方差 作为 标准 测度 函 
数 ， 定 义 如 下 : 


和 


£-》 Dclpm (6-40) 

其 中 E 表 示 数 据 库 中 所 有 对 象 的 均 方差 总 和 和，p 表 示 空 间 中 代表 某 个 对 象 的 一 个 点 ，m 表 
示 聚 类 C 的 均值 。 

这 一 聚 类 标准 的 目的 是 使 得 到 的 kt 个 聚 类 满足 : 各 个 聚 类 本 身 具 有 较 高 的 相似 度 ， 而 各 聚 
类 之 间 在 最 大 程度 上 分 开 。 该 算法 的 计算 复杂 度 为 O(nkt)， 其 中 n 表 示 对 象 个 数 ，k 表 示 聚 类 个 
数 ， 而 t 表 示 循 环 次 数 ， 通 常情 况 下 ，k<<n 和 t<<n。 该 算法 常常 终止 于 局 部 最 优 。 由 此 ， 可 以 
看 出 k-Mean 算 法 在 一 定 程度 上 可 以 有 效 地 处 理 大 数据 库 。 

2. k-Medoids 算 法 


k-Means 算 法 存在 着 一 些 不 足 ， 比 如 异常 数据 会 影响 该 算法 各 聚 类 均值 的 计算 ， 影 响 
对 数据 分 布 的 估计 ， 而 且 该 算法 对 离 群 点 很 敏感 。 因 此 ， 人 们 在 k-Means 算 法 的 基础 上 做 了 
一 些 改进 ， 得 到 了 k-Medoids 算 法 。 不 同 于 k-Means 算 法 运用 各 聚 类 的 均值 作为 聚 类 中 心 ， 
k-Medoids 算 法 运用 medoid 作 为 参考 点 ， 然 后 计算 各 个 对 象 与 各 个 参考 点 之 间 的 距离 即 差异 性 
之 和 ， 根 据 这 个 总 和 最 小 化 的 原则 ， 应 用 划分 方法 来 实现 对 象 的 聚 类 划分 。 

k-Medoids 算 法 的 基本 操作 过 程 是 : 首先 随意 选择 一 个 对 象 代表 每 个 徐 , 剩余 的 对 象 根据 
其 与 代表 对 象 的 距离 分 配给 最 近 的 一 个 徐 。 然 后 反复 地 用 非 代表 对 象 来 替代 代表 对 象 ， 以 改 
进 聚 类 的 质量 。 聚 类 结果 的 质量 用 一 个 代价 函数 来 估算 ， 即 评估 对 象 与 其 参照 对 象 之 间 的 平 
均 相 异 度 。 

3. EM 算法 


期 望 最 大 化 ( Expectation Maximization，EM ) 算法 不 将 对 象 明确 地 分 到 某 个 徐 ， 而 是 根据 


第 6 章 “数据 挖掘 技术 | 213 


表示 隶属 可 能 性 的 权 来 分 配对 象 。 也 就 是 说 ， 在 能 之 间 没 有 严格 的 边界 。 新 的 均值 基于 加 权 
度量 值 计算 。 

在 实际 应 用 中 ， 有 相当 多 的 问题 属于 数据 残缺 问题 。 不 能 直接 观察 到 的 变量 称 为 隐 仿 变 
量 ， 任 何 含有 隐 仿 变量 的 模型 都 可 以 归 为 数据 残缺 问题 。EM 算 法 是 解决 数据 残缺 问题 的 一 个 
十 分 有 效 的 算法 。 

6.4.3 ”层次 方法 

层次 聚 类 方法 的 基本 思路 是 将 数据 分 为 车 干 组 并 形成 一 个 组 的 树 从 而 进行 聚 类 。 一 般 有 
两 种 基本 层次 聚 类 方法 ， 一 种 是 自 下 而 上 聚合 层次 聚 类 方法 ( AGNES ) ， 该 方法 的 基本 操作 
为 : 先 将 每 个 对 象 自身 作为 一 个 聚 关 ， 然 后 聚合 这 些 聚 类 以 得 到 更 大 的 聚 关 ， 当 所 有 对 象 都 
聚合 成 为 一 个 聚 关 ， 或 满足 一 定 终 目 条件 时 操作 完成 。 另 一 种 是 自 顶 而 下 分 解 层次 聚 类 方法 
( DIANA ) ， 该 方法 先 将 全 部 的 对 象 当成 一 个 聚 类 ， 然 后 不 断 分 解 这 个 聚 类 以 得 到 更 小 的 到 
类 ， 这 个 过 程 中 小 了 类 的 个 数 不 断 增多 ， 当 所 有 对 象 都 独自 构成 一 个 聚 类 ， 或 满足 一 定 终止 
条 件 时 操作 完成 。 上 述 两 种 层次 聚 类 方法 的 操作 过 程 是 相反 的 。 具 体 过 程 如 图 6.12 所 示 。 


聚合 初始 ”步骤 1 步骤 2 ”步骤 3 步骤 4 
(AGNES) : : - : ! 


& 分 解 
T T T T T (DIANA) 
步骤 4 ”步骤 3 ”步骤 2 ”步骤 1 ”初始 


图 6.12 ”聚合 和 分 解 层次 聚 类 方法 示意 描述 
层次 算法 能 够 产生 高 质量 的 聚 类 ， 但 也 存在 计算 和 存储 需求 较 大 ， 缺 乏 全 局 目标 函数 ， 
合并 决策 不 能 撤销 等 问题 。 因 此 ， 经 常 将 层次 方法 与 其 他 聚 类 技术 相 结合 以 进行 多 阶段 的 聚 
类 ， 比 较 有 著名 的 方法 有 BIRCH ( Balanced Iterative Reducing and Clustering using Hierarchies ) 
和 CURE ( Clustering Using Representative ) 等 。 
1. BIRCH 


BIRCH 方 法 是 一 种 集成 的 层次 聚 类 方法 ， 聚 类 特征 (Clustering Feature，CF ) 和 聚 类 特征 
树 ( CF Tree ) 是 该 方法 的 两 个 重要 概念 。 聚 类 描述 可 以 运用 这 两 个 概念 来 进行 概要 总 结 。 相 
应 的 有 关 数 据 结 构 有 利于 使 聚 类 方法 提高 聚 类 速度 ， 而 且 也 有 利于 提高 处 理 大 数据 库 的 可 拓 
展 性 。 另 外 ，BIRCH 方 法 能 够 有 效 地 进行 增 量 和 动态 聚 类 。 

聚 类 特征 是 一 个 三 元 组 ， 该 三 元 组 储存 了 对 象 子 集 的 概要 信息 。 设 一 个 子 聚 类 包含 N 个 
d- 维 数据 或 对 象 6;， 则 此 子 聚 类 的 CF 定义 为 : 


214 | 大 数据 导论 : 关键 技术 与 行业 应 用 最 佳 实践 


CF=(N, LS, S9) (6-41) 
其 中 ,入 表示 该 子 聚 类 包含 的 对 象 个 数 ，Z3 表 示 这 N 个 点 之 和 ， 即 2,6; ，SS 表 示 数 据点 的 平 


方 和 ， 即 6”。 桶 类 特征 的 作用 基本 上 就 是 总 结 给 定 的 子 到 类 的 统计 信息 ， 其 中 包括 聚 类 计 
算 以 及 空间 存储 利用 所 需 的 关键 信息 。 

BIRCH 方 法 操作 主要 有 以 下 两 个 阶段 。 

第 一 阶段 : 扫描 数据 库 ， 建 立 一 个 基于 内 存 的 初始 CF 树 。 此 树 保留 了 数据 中 包含 的 有 关 
聚 类 结构 的 信息 ， 在 一 定 程度 上 ， 可 以 看 成 对 数据 的 压缩 。 

第 二 阶段 : 选择 一 个 合适 的 聚 类 算法 ， 对 CF 树 的 叶 结 点 进行 聚 类 。 

BIRCH 方 法 采用 多 阶段 处 理 的 方式 为 : 首先 扫描 一 遍 数据 ， 从 而 获得 一 个 基本 理想 的 聚 
类 ; 通过 第 二 次 扫描 数据 来 帮助 改善 所 获 聚 类 的 质量 。BIRCH 的 计算 复杂 度 为 O(n)， 其 中 为 
带 聚 类 的 对 象 数 。 

2. CURE 


CURE 算 法 属于 聚合 方法 与 分 解 的 中 间 做 法 ， 它 描述 一 个 聚 类 不 仅仅 是 采用 一 个 聚 类 中 
心 或 者 对 象 来 进行 ， 而 是 选取 固定 数目 具有 代表 性 的 空间 点 来 进行 一 个 聚 类 表示 。 表 示 聚 类 
代表 性 的 点 的 产生 ， 先 要 对 分 布 较 好 的 聚 类 对 象 进行 选择 ， 接 着 按照 特定 的 速率 ( 收缩 因 
子 ) 把 它们 “收缩 ”或 是 移 至 聚 类 的 中 心 。 每 一 步 算 法 ， 都 是 合并 拥有 分 别 来 源 于 两 个 不 同 
聚 类 两 个 代表 性 点 所 涉及 的 两 个 聚 类 。 

每 个 包含 超过 一 个 代表 性 点 的 聚 类 对 于 CURE 方 法 调整 好 它 的 非 圆 状 边 界 非常 有 帮助 ， 
聚 类 的 收缩 或 是 压缩 都 对 压制 异常 数据 起 到 一 定 的 作用 。 因 此 CURE 方 法 对 异常 数据 表现 得 
更 具 鲁 棒 性 ， 同 时 它 也 能 识别 具有 非 圆 形状 和 不 同 大 小 的 聚 类 。 此 外 ， 该 方法 在 不 牺牲 聚 类 
质量 的 情况 下 ， 对 大 数据 库 的 处 理 也 具有 较 好 的 可 扩展 性 -。 

3. ROCK 


ROCK 也 是 一 个 聚合 层次 聚 类 算法 ， 与 CURE 不 同 ，ROCK 适 合 处 理 符号 属性 ， 一 般 度 量 
两 个 簇 的 相似 度 是 根据 比较 集合 的 互 连 性 与 用 户 定义 的 互 连 性 模型 来 进行 的 。ROCK 先 是 通 
过 相似 度 阀 值 以 及 共同 邻居 的 概念 在 给 出 的 数据 相似 度 矩 阵 中 构建 一 个 稀 玻 的 图 ， 接 着 再 在 
这 个 图 上 运行 一 个 层次 聚 类 算法 。 


4. Chameleon 


Chameleon 算 法 是 一 种 在 层次 聚 类 中 采用 动态 模型 的 聚 类 算法 ， 是 在 CURE 算 法 与 ROCK 
算法 有 所 不 足 的 基础 上 提出 的 。CURE 算 法 与 它 的 相关 方案 忽略 了 两 个 不 同 簇 中 数据 项 的 聚 
集 互 联 性 信息 ; 而 ROCK 算 法 及 其 相关 方案 则 忽略 了 两 个 不 同 簇 的 接近 度 。Chameleon 算 法 既 
考虑 两 个 簇 之 间 的 互联 性 ， 又 考虑 两 个 簇 之 间 的 接近 度 。 在 建立 两 个 不 同 簇 间 互 联 度 和 接近 
度 时 ， 利 用 每 个 复 内 部 对 象 的 特征 来 定义 相似 的 子 复 。 因 而 ，Chameleon 并 不 依靠 于 静态 的 、 
用 户 提供 的 模型 ， 只 要 定义 了 相似 函数 就 能 够 应 用 于 各 种 类 型 的 数据 。 
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6.4.4 ”基于 密度 的 方法 

基于 密度 方法 可 以 在 具有 任意 形状 的 聚 类 的 发 现 上 提供 帮助 。 通 常 在 一 个 数据 空间 中 ， 
低 密度 ( 稀 朴 ) 的 对 象 区 域 ( 一 般 就 认为 是 噪声 数据 ) 将 会 分 割 高 密度 的 对 象 区 域 。 

1. DBSCAN 


DBSCAN ( Density-Based Spatial Clustering of Applications with Noise ) 是 一 种 基于 密度 的 聚 
类 算法 。 这 种 算法 能 够 把 拥有 较 高 密度 的 区 域 划 分 成 徐 ， 同 时 能 将 空间 数据 库 中 任意 形状 的 
聚 类 从 “噪音 ”中 分 离 ， 它 将 簇 定义 为 密度 相连 的 点 的 最 大 集合 。 

基于 密度 的 聚 类 的 基本 想法 和 一 些 相关 的 定义 ， 具体 如 下 。 

(1 ) 一 个 给 定 对 象 的 s 半径 内 的 近邻 就 叫做 这 个 对 象 的 s -近邻 。 

(2 ) 若 一 个 对 象 的 s -近邻 包含 超过 最 低 数目 ( MinPts ) 个 对 象 ， 就 把 这 个 对 象 叫做 核 
对 象 。 

(3 ) 给 定 一 组 对 象 集 D， 若 q 为 核对 象 ， 一 个 对 象 p 为 9 的 s -近邻 ,那么 就 说 p 是 从 4 可 以 
“直接 密度 可 达 ”。 

(4) 对 于 一 个 来 说 ,一 个 对 象 p 是 从 对 象 gq 可 “密度 可 达 ”; 一 组 对 象 集 D 有 MinPts 个 
对 象 ; 如 果 有 一 组 对 象 p1.p.….p,， 其 中 p=qg，pw=p， 则 使 得 (对 于 s 和 MinPts 来 讲 ) p+1 是 从 
Pi; 可 “直接 密度 可 达 ”， 其 中 有 PED, 1<i<n。 

(5 ) 对 于 s 和 MinPts 来 讲 ， 若 存在 一 个 对 象 o(o ED)， 使 得 从 o 可 “密度 可 达 ” 对 象 p 与 
对 象 9， 对 象 p 为 “密度 连接 ”对 象 q。 

密度 可 达 为 密度 连接 的 一 个 传递 闭 包 ， 这 种 关系 是 不 对 称 的 ， 仅 有 核对 象 是 相互 “密度 
可 达 ”， 而 密度 连接 是 对 称 的 。 

DBSCAN 检 验 数据 库 中 每 一 个 点 的 s -近邻 。 若 一 个 对 象 p 的 s -近邻 包含 超过 MinPts 个 ， 就 
要 创建 包含 p 的 新 聚 类 。 接 着 DBSCAN 再 根据 这 些 核对 象 ， 循 环 收集 “直接 密度 可 达 ” 的 对 象 ， 
其 中 可 能 涉及 合并 若干 “密度 可 达 ” 聚 类 。 当 各 聚 类 再 无 新 点 ( 对 象 ) 加 入 时 聚 类 进程 结束 。 

2. OPTICS 


DBSCAN 在 进行 聚 类 时 需要 指定 输入 参数 s 和 MinPts， 但 在 实际 操作 时 参数 很 难 确定 ， 而 
且 一 般 算 法 对 参数 的 设置 敏感 ， 参 数 的 变化 对 聚 类 结果 影响 非常 大 。 为 了 克服 这 个 问题 ， 人 
们 提出 了 OPTICS ( Ordering Points to Identify the Clustering Structure ) 聚 类 顺序 方法 ， 这 种 方法 
不 会 直接 生成 一 个 聚 类 ， 而 是 为 自动 及 交互 的 聚 类 分 析 计 算得 到 一 个 簇 次 序 。 该 次 序 表示 了 
基于 密度 的 数据 聚 类 结构 ， 包 括 了 与 基于 许多 参数 设置 所 得 到 的 基于 密度 聚 类 相当 的 信息 。 

OPTICS 算 法 给 数据 库 中 的 对 象 建立 一 个 对 象 顺序 ， 同 时 保存 每 个 对 象 核 心 距离 与 一 个 适当 
的 可 达 距 离 ， 这 些 信息 足够 帮助 通过 任意 小 于 产生 聚 类 顺序 s 的 距离 ， 产 生 全 部 的 密度 聚 类 。 


6.4.5 ”基于 网 格 的 方法 


基于 网 格 聚 类 方法 通过 多 维 网 格 数据 结构 ， 它 把 空间 分 成 数目 有 限 的 单元 ， 以 构成 一 个 
能 够 进行 聚 类 分 析 的 网 格 结构 了 。 该 方法 的 最 主要 的 特点 就 是 它 处 理 时 间 和 数据 对 象 数目 不 
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相关 ， 但 与 每 维 空间 所 划分 的 单元 数 相 关 ， 因 此 基于 网 格 聚 类 方法 的 处 理 时 间 很 短 。 
1. STING 


STING ( Statistical Information Grid ) 是 一 个 基于 网 格 多 分 辨 率 的 聚 类 方法 ， 它 把 空间 分 
成 方形 单元 ， 不 同 层 次 的 分 辨 率 相对 的 是 不 同 层次 的 方形 单元 。 这 些 单元 组 成 了 一 个 层次 结 
构 ， 高 层次 单元 被 分 解 成 一 组 层次 相对 低 些 的 单元 。 涉 及 各 网 格 单元 属性 的 统计 信息 ( 如: 
最 小 值 、 最 大 值 、 均 值 ) 皆 可 以 事先 运算 和 存储 。 

一 个 自 上 而 下 基于 网 格 方法 来 处 理 查 询 的 操作 步骤 是 : 首先 依据 查询 内 容 对 层次 结构 的 
开始 层次 进行 明确 ， 一 般 该 层次 所 含 的 单元 较 少 了 ;对 于 当前 层次 中 的 各 个 单元 ,计算 其 信任 
度 差 (或 估计 概率 范围 ) 来 反映 当前 单元 和 查询 要 求 的 相关 程度 ， 消 除 不 相关 的 单元 以 便 仅 考 
虑 相关 单元 ， 一 直 重 复 这 一 过 程 直至 到 达 最 底层 ; 此 时 如 果 满 足 查询 要 求 ， 就 返回 满足 要 求 的 
相关 单元 区 域 ， 否 则 取出 相关 区 域 单元 中 的 数据 ， 进 一 步 处 理 它们 直至 查询 要 求 得 到 满足 。 

2. CLIQUE 


CLIQUE ( CLustering In QUEst ) 聚 类 算法 是 将 基于 密度 以 及 基于 网 格 的 聚 类 方法 综合 在 
一 起 ， 它 在 大 型 数据 库 中 的 高 维 数据 的 聚 类 中 起 着 重要 的 作用 。CLIQUE 的 中 心思 想 是 : 给 出 
一 个 多 维 数据 点 的 大 集合 ， 一 般 数据 点 在 数据 空间 中 是 非 均衡 分 布 的 。CLIQUE 可 以 将 空间 中 
稀 玻 的 和 拥挤 的 区 域 区 别 开 来 ， 从 而 发 现 数据 集合 的 全 局 分 布 模式 。 若 一 个 单元 中 的 包含 的 
数据 点 多 于 了 某 个 输入 的 参数 ， 那 么 这 个 单元 是 密集 的 。 在 CLIQUE 中 ， 簇 就 是 相连 的 密集 单 
元 的 最 大 集合 。 

此 外 ,在 实际 操作 中 也 常常 会 用 到 基于 模型 的 聚 类 方法 ， 主 要 是 统计 学 方法 以 及 神经 网 
络 方法 这 两 种 模型 ， 该 方法 是 基于 “数据 是 根据 潜在 的 概率 分 布 生成 的 ”这 个 假设 , 试图 对 
给 定 的 数据 和 某 些 数学 模型 之 间 的 适应 性 进行 优化 。 


6.4.6 ”基于 模型 的 方法 


基于 模型 的 方法 是 假设 每 个 聚 类 的 模型 同时 发 现 与 模型 相应 的 模型 数据 。 通 常 有 统计 学 
方法 以 及 神经 网 络 方法 等 。 基 于 统计 学 的 聚 类 方法 主要 分 为 三 种 : Cheeseman 与 Stutz 一 起 提出 
的 AutoClass，Fisher 提 出 的 COBWEB 以 及 Gennari 等 人 提出 的 CLASSIT。 

1. 统计 学 方法 

目前 在 产业 界 比较 流行 的 一 种 聚 类 方法 是 AutoClass， 它 通过 贝 叶 斯 统计 分 析 来 对 结果 簇 
的 数目 加 以 估算 。 这 个 系统 采用 搜索 模型 空间 存在 一 切 分 类 的 可 能 性 ， 来 对 分 类 类 别 的 个 数 以 
及 模型 描述 的 复杂 性 进行 自动 确定 。 它 允许 在 一 些 类 别 内 属性 之 间 可 以 存在 一 定 的 相关 性 ， 
各 个 类 之 间 存 在 一 定 的 继承 性 ， 也 就 是 在 类 层次 结构 中 ， 一 些 类 共同 享 一 定 的 模型 参数 。 

COBWEB 是 一 种 流行 、 简 单 的 增 量 概念 聚 类 算法 ， 它 创建 层次 聚 类 的 形式 是 一 个 分 类 
树 。 分 类 树 和 判定 树 并 不 一 样 ， 通 常 分 类 树 里 面 一 个 节点 就 对 应 一 个 概念 ， 包 括 这 个 概念 的 
概率 描述 ， 能 将 这 个 节点 的 对 象 信息 加 以 概括 。 判 定 树 标记 的 不 是 节点 而 是 分 支 ， 而 且 运用 
逻辑 描述 符 ， 而 不 是 概率 描述 符 。 


©® http://www.docin.com/p-548850492.html 


第 6 章 “数据 挖掘 技术 | 217 


CLASSIT 是 在 COBWEB 的 基础 上 加 以 扩展 ， 主 要 对 连续 性 数据 的 增 量 聚 类 进行 处 理 。 这 
种 算法 在 各 个 节点 中 存储 属性 的 连续 正 态 分 布 (也 就 是 均值 及 标准 差 ) ， 运 用 修正 的 分 类 效 
用 度量 ， 这 种 度量 并 非 是 在 离散 属性 上 求 和 ， 而 是 连续 属性 上 的 积分 。 然 而 CLASSIT 存 在 和 
COBWFEB 相 似 的 问题 ， 同 样 不 适合 对 大 型 数据 库 中 的 数据 加 以 聚 类 。 

2. 神经 网 络 方法 

神经 网 络 方法 是 把 一 个 簇 描 述 成 一 个 样本 。 而 聚 类 的 原型 则 是 样本 ,无需 非得 与 特定 的 
数据 实例 及 对 象 相 对 应 。 神 经 网 络 聚 类 方法 通常 包括 由 Rumelhart 等 所 提出 的 竞争 学 习 神 经 网 
络 以 及 Kohonen 所 提出 的 自 组 织 特征 映射 (SOM ) 神经 网 络 。 采 用 神经 网 络 聚 类 方法 需要 的 处 
理 时 间 较 长 ， 并 且 有 较 高 的 数据 复杂 性 。 需 要 研究 能 够 提高 网 络 学 习 速 度 的 学 习 算 法 ， 并 增 
强 网 络 的 可 理解 性 ， 以 便 使 人 工 神经 网 络 处 理 方法 适用 于 大 型 数据 库 。 


6.4.7” 双 聚 类 方法 


寻常 的 聚 类 是 按照 数据 的 全 部 信息 对 数据 聚 类 ， 该 方法 称 之 为 传统 聚 类 。 传 统 聚 类 仅 
仅 可 以 用 来 寻找 全 局 信息 ， 没 办 法 找 出 局 部 信息 ， 而 海量 的 生物 学 信息 却 隐藏 于 局 部 信息 当 
中 。 为 帮助 人 们 寻找 这 些 信息 ，2000 年 ，CHENG 与 CHURCH 一 起 提出 了 双 聚 类 ( bicluster ) 
概念 ， 同 时 对 双 聚 类 进行 定义 。 

双 聚 类 分 析 方 法 就 是 在 行 和 列 两 个 方向 上 进行 聚 类 分 析 ， 通 常 采用 贪 禁 迭代 搜索 的 方 
法 来 发 现 子 矩阵 或 稳定 的 类 ， 这 些 子 矩阵 中 感 兴趣 的 模式 具有 特定 的 生物 学 意义 ， 在 很 大 程 
度 上 克服 了 一 些 传统 聚 类 分 析 方法 带 有 的 缺陷 。 为 打破 传统 聚 类 的 局 限 性 以 及 更 好 地 提高 效 
率 ,， 许多 算法 在 寻找 双 聚 类 时 都 采用 了 贪 禁 迭代 搜索 方法 。 

1. CC 算法 

CC 算法 采用 逐渐 删除 能 够 使 子 矩 阵 的 平均 平方 残 差 降低 的 行 与 列 ， 获 得 一 个 初步 的 双 聚 
类 ， 然 后 逐步 增加 不 会 令 子 矩阵 平均 平方 残 差 增 多 的 行 与 列 ， 从 而 获得 一 个 较 好 的 双 聚 类 。 
为 了 找 出 更 多 双 聚 类 ， 算 法 对 已 经 找到 的 双 聚 类 进行 随机 数 覆 盖 ， 接 着 删除 或 添加 过 程 继而 
获得 特定 个 数 的 双 聚 类 结果 。 算 法 可 以 较 迅 速 地 取得 用 户 指定 数目 的 双 聚 类 。 

设 X 是 基因 集 ，7 是 对 应 的 表达 条 件 集 。aj 是 基因 表达 数据 矩阵 A 中 的 元 素 。 设 I、J 分 别 是 
于 、7Y 的 子 集 ， 那么 (I，J) 对 指定 的 子 和 矩阵 4w 具 有 下 面 的 平均 平方 残 基 : 


1 
H(1,J)= 3(D,-D,-D,+D,} (6-42) 


I 
| 
其 中 : 多 和 a 而 宝 分 别 为 行 平均 值 、 列 平均 值 和 子 矩 阵 (7，.) 的 平均 值 。 


对 于 5 <0， 则 称 该 子 和 矩阵 为 一 个 5 -bicluster。 

为 了 高 效 地 寻找 8 -bicluster， 作 者 使 用 了 一 种 增删 节点 的 方法 来 寻找 均 方 残 差 最 小 的 子 
和 矩阵。 首先 ， 使 用 多 节点 删除 法 ， 逐 渐 删 除 能 够 降低 子 和 矩阵 的 平均 平方 残 差 的 行 与 列 ， 获 得 
一 个 初步 的 双 聚 类 ; 然后 ， 使 用 单 节点 删除 法 ,精细 删除 某 一 行 和 列 ， 只 要 操作 后 矩阵 的 均 
方 残 差 比 原来 的 均 方 残 差 的 减 小 ， 直 至 无 法 下 降 ; 最 后 ， 只 要 操作 后 矩阵 的 均 方 残 差 比 原来 
的 均 方 残 差 的 减 小 ,使 用 节点 插入 法 ,精细 增加 某 一 行 和 列 ， 直 至 无 法 下 降 。 由 于 CC 算法 是 
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一 种 确定 性 算法 ， 每 次 都 是 得 到 一 个 相同 的 双 聚 类 ， 每 一 个 节点 皆 与 数据 矩阵 中 的 一 行 或 者 
一 列 相对 应 。 

CC 算法 实现 了 对 基因 表达 数据 在 基因 和 条 件 两 个 方向 的 同时 聚 类 ,减弱 了 相似 度 算法 对 
聚 类 的 影响 ， 采 用 平均 平方 残 基 得 分 方案 来 评价 结果 矩阵 的 质量 ， 提 高 了 聚 类 准确 性 。 然 而 
这 样 也 有 着 很 大 的 缺陷 ， 随 机 数 的 蔡 换 会 造成 原始 数据 的 更 改 ， 导 致 结果 的 不 精确 ， 也 没 办 
法 找 出 重 全 的 双 聚 类 ， 同 时 还 容易 陷 进 局 部 最 优 的 缺陷 。Yang 等 人 根据 CC 算法 加 以 改进 ， 进 
而 提出 了 FLOC 算 法 。 

2. FLOC 算 法 


FLOC 算 法 的 打分 原则 类 似 于 CC 算法 ,不 同 的 是 CC 算法 考虑 的 是 所 有 都 是 确定 值 ， 而 
FLOC 算 法 则 在 缺失 值 上 面 有 着 独特 的 处 理 。 该 算法 第 一 步 是 生成 一 定数 量 的 种 子 ， 接 着 采 
用 计算 对 某 一 行 或 列 进行 添加 或 删除 ， 每 一 步 都 尽力 让 双 聚 类 的 中 间 结 果 增 益 的 变化 达到 最 
大 。 尽 管 FLOC 算 法 能 够 找 出 可 重 倒 的 双 聚 类 ,但 是 在 很 大 程度 上 双 聚 类 结果 的 好 坏 和 运行 
时 间 都 对 初始 聚 类 有 着 非常 大 的 依赖 ， 而 这 些 初始 聚 类 的 产生 一 般 都 是 随机 的 。 双 聚 类 的 贪 
心 策略 效率 比较 高 ， 然 而 聚 类 结果 容易 陶 进 局 部 最 优 。 为 弥补 贪心 策略 会 陷 进 局 部 最 优 的 缺 
陷 ， 某 些 算法 先是 运用 贪心 策略 来 寻找 双 聚 类 ， 接 着 再 应 用 智能 优化 算法 处 理 找 到 的 双 聚 类 
从 而 得 到 比较 好 的 结果 。 例 如 Ste-Fan 等 人 就 改良 了 CC 算法 ， 即 在 添加 或 删除 过 程 当 中 好 的 行 
列 其 保留 概率 较 大 ， 反 之 则 较 小 ， 和 迭代 所 获 的 结果 即 是 种 子 ， 运 用 进化 算法 优化 来 得 到 较 好 
的 双 聚 类 。 

假设 一 个 基因 表达 矩阵 4=(ap)ss 具 有 m 个 基因 m 个 条 件 ， 了 是 这 个 矩阵 的 基因 全 集 ，Z 是 这 
个 矩阵 的 条 件 全 集 。 有 一 个 双向 聚 类 (I，J) ,其 中 ISX,JEY， 那 么 对 于 在 双向 聚 类 里 面 的 
全 部 元 素 a;，iSbjSJ， 有 以 下 规定 : 

1 


2 [7 jel ay (6-43 ) 
其 中 .7 是 第 向 中 的 确定 值 ( 非 缺失 值 ) 。 
oe 全 (6-44 ) 
其 中 7 是 第 ) 行 中 的 确定 值 ( 非 缺 失 值 ) 。 
a Dy (6-45) 
| 


这 里 的 ay 是 表示 的 是 双向 聚 类 (I，J 了 ) 中 确定 值 的 元 素 ， 而 | 胸 1 叫做 双向 聚 类 (了 ,J 了 ) 
的 容量 ， 也 就 是 双向 聚 类 (IJ，J) 中 确定 值 的 元 素 的 个 数 。 

为 了 寻找 k 个 容量 较 大 ， 剩 余 值 较 小 的 双 聚 类 ， 作 者 首先 运用 统一 概率 参数 p 生 成 上 个 容量 
为 (Mx 刀 x(Vx 娓 ， 且 容量 大 于 容量 阔 值 的 双 聚 类 种 子 循环 然后， 生成 一 个 操作 序列 ( 固定 
序列 ，@ 随 机 序列 ，@ 随 机 权重 序列 ) ， 顺 序 执行 操作 序列 ， 依 次 选择 最 优 操作 ， 生 成 一 个 
(m+n ) 个 双 聚 类 组 ， 判 断 是 否 进入 下 个 循环 ， 还 是 结束 退出 ; 最 后 ， 更 新 初始 双 聚 类 组 ， 
用 (m+n ) 个 双 聚 类 组 中 平均 子 矩 阵 剩 余 值 最 小 的 双 聚 类 组 代替 初始 双 聚 类 组 。 假 如 产生 操 
作 序列 ， 则 需要 采用 交换 概率 跑 p(i+) 修 改 操作 序列 里 的 次 序 。 

FLOC 算 法 能 够 一 次 得 到 多 个 双向 聚 类 ， 运 用 跳 过 的 方法 来 处 理 缺 失 值 ， 在 某 种 程度 上 
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保障 了 数据 矩阵 的 稳定 性 ， 双 向 聚 类 质量 在 多 次 迭代 的 作用 下 显得 的 更 好 。 但 是 因为 FLOC 算 
法 是 多 次 迭代 ， 并 且 碍 于 迭代 条 件 的 缘故 ， 其 运行 速度 较 慢 ， 连 代 过 程 中 寻 优 的 两 个 目标 分 
离 ， 最 终 导致 所 寻找 的 目标 无 法 明确 。 
表 6.3 所 示 为 FLOC 算 法 与 CC 算法 的 比较 。 
表 6.3 ”FLOC 算 法 与 CC 算法 比较 表 


CC 算法 FLOC 算 法 | 
双 聚 类 类 型 连贯 值 型 连贯 值 型 | 
双 聚 类 结构 | 任意 位 置 重 春 任意 位 置 重 乔 | 


双开 类 结果 一 次 一 个 一 次 多 个 
贪 村 迭代 搜索 贪 禁 迭 代 搜索 
在 阔 值 范围 内 的 最 大 双 聚 类 剩余 值 尽 可 能 小 容量 尽 可 能 大 


CC 算法 是 最 为 经 典 的 算法 ， 很 多 算法 都 是 把 它 当 作 航标 。 即 便 这 样 ，CC 算 法 依然 存在 很 
需要 改进 的 地 方 ，FLOC 算 法 采取 两 方面 的 处 理 打破 了 CC 算法 的 一 些 局 限 。 就 整体 来 说 ， 
ret ne 主要 表现 在 双向 聚 类 的 结构 、 类 型 和 算法 分 类 上 
。 当 然 两 者 还 是 有 区 别 的 ， 这 从 双向 聚 类 的 结果 、 算 法 目标 与 对 缺失 值 的 处 理 局 能 够 轻易 
ee FLOC 算 法 也 可 以 看 作 CC 算 法 的 改进 算法 ， 但 是 还 存在 其 不 足 或 是 需要 改进 的 地 方 。 


上 6.5 离 群 点 检测 


离 群 点 检测 的 任务 是 识别 特征 显著 不 同 于 其 他 数据 的 观测 值 ， 这 样 的 点 称 为 异常 点 、 离 
群 点 或 孤立 点 。 离 群 点 检测 算法 的 目标 是 发 现 真正 的 离 群 点 ， 同 时 避免 将 正确 的 对 象 标注 为 
离 群 点 。 离 群 点 检测 的 应 用 包括 欺诈 检测 、 入 侵 检测 、 故 障 检测 、 疾 病 的 不 寻常 模式 、 生 态 

本 节 主 要 介绍 离 群 点 检测 的 基本 概念 ， 以 及 离 群 点 检测 常用 的 一 些 算法 ,包括 基 于 统计 
的 、 基 于 距离 的 和 基于 偏差 的 检测 算法 。 


6.5.1 基本 概念 


在 不 同 领域 ， 离 群 点 有 不 同 的 定义 ,通常 情况 下 描述 离 群 点 检测 可 以 定义 为 : 给 定 一 个 
有 n 个 数据 点 或 对 象 的 数据 集 和 期 望 的 离 群 点 数目 K， 找 出 与 数据 集中 其 余数 据 显著 不 同 的 、 
异常 的 或 不 一 致 的 前 k 个 对 象 。 离 群 点 挖掘 问题 可 以 被 看 做 两 个 子 问题 : (1 ) 定义 在 给 定 的 
数据 集中 ， 什 么 样 的 数据 可 以 被 认为 是 不 一 致 的 ; (2 ) 找到 一 个 有 效 的 方法 来 挖掘 所 定义 的 
离 群 点 。 

导致 离 群 的 原因 主要 包括 : (1 ) 数据 来 源 于 异类 ， 如 欺诈 、 入 侵 、 疾 病 爆 发 、 不 寻常 
I 实验 结果 等 。 ( 2 ) 由 数据 变量 固有 变化 引起 ， 是 自然 发 生 的 ， 反映 了 数据 集 的 数据 分 布 特 
征 ， 如 气候 变化 、 顾 客 的 新 的 购买 模式 、 基 因 突 变 等 。 ( 3 ) 数据 测量 和 收集 误差 ， 主 要 是 由 
于 人 为 错误 、 测 量 设备 故障 或 存在 噪音 。 根 据 不同 的 分 类 标准 ， 可 以 将 离 群 点 分 成 不 同 的 类 
别 ， 如 图 6.13 所 示 。 
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数据 范围 


不 
广 全 局 离 群 点 
广 局 部 离 群 点 


单 变量 离 群 点 。 多 变量 离 群 点 


变量 数目 


一 分 类 型 离 群 点 


数值 型 离 群 点 
ci 


数据 类 型 


图 6.13 ” 离 群 点 分 类 


6.5.2 ”基于 统计 的 离 群 点 检测 


统计 方法 首先 对 已 知 给 定 的 数据 样本 集 假设 一 个 分 布 或 者 概率 模型 ( 比如 正 态 分 布 或 泊 
松 分 布 ) ， 然 后 采用 不 一 致 性 检验 ， 结 合 假设 的 模型 ， 从 而 确定 离 群 点 。 这 种 检测 需要 事先 
了 解数 据 集 的 有 关 参 数 ( 如 数据 分 布 情况 ) 、 分 布 的 参数 ( 如 均值 和 方差 ) 以 及 期 望 的 离 群 
点 数目 。 

一 个 统计 不 一 致 测试 检查 两 个 假设 ， 即 一 个 正面 假设 和 反面 假设 。 一 个 正面 假设 A 就 是 
一 个 描述 ”个 数据 对 象 来 自 一 个 分 布 FF， 即 : 

H:oe 忆 其 中 i=1,2,...,1 (6-46 ) 

若 没有 非常 明显 的 统计 证 据 来 反驳 瑟 ， 则 接受 豆 ， 认 为 玉成 立 。 一 个 不 一 致 测试 就 是 验证 
一 个 对 象 0; 与 分 布 F 关 系 是 否 非 常 大 ( 或 小 ) 。 根 据 不 同 的 数据 知识 ， 提 出 了 不 同 的 统计 量 ， 
得 到 了 不 同 的 不 一 致 测试 方法 。 假 设 选择 统计 量 T 作 不 一 致 性 测试 ， 对 象 o 的 统计 值 是 w; 构 
造 分 布 T 并 对 重要 性 概率 SP (vw ) =Pr ob (了 > ) 进行 评估 。 若 存在 某 个 概率 SP (vw) 足够 
小 ， 则 认为 对 象 o 是 不 一 致 的 ， 拒 绝 正面 假设 。 一 个 反面 假设 五 ， 是 一 个 描述 对 象 o 来 自 男 一 
个 分 布 G。 分 布 F 模 型 的 选择 对 判断 对 象 是 否 一 致 具有 非常 大 的 影响 ， 是 因为 对 象 o 在 一 个 模 
型 是 不 一 致 数据 ， 但 是 在 另外 一 个 模型 中 可 能 就 是 一 致 的 。 此 外 ,反面 模 型 对 对 象 o 的 判断 
也 是 非常 重要 的 ， 即 确定 当 对 象 o 确 实 是 不 一 臻 数据 时 正面 假设 被 拒绝 的 概率 。 

运用 统计 方法 进行 离 群 点 检测 存在 的 主要 不 足 : 因为 检测 出 多 维 空间 中 的 不 一 致 数据 是 
大 多 数 数据 挖掘 问题 所 需要 的 ,但 是 离 群 点 统计 检验 测试 基本 上 都 是 针对 单个 属性 的 ， 这 在 
很 大 程度 上 限制 了 此 方法 的 应 用 范围 。 此 外 ， 运 用 统计 方法 还 需要 知道 数据 集 参 数 的 有 关 知 
识 ， 比 如 数据 的 分 布 情况 。 然 而 在 很 多 情况 下 ， 是 不 知道 数据 的 分 布 情况 的 。 而 且 统 计 方 法 
也 不 能 保证 可 以 检测 出 所 有 的 不 一 致 数据 ， 特 别 是 当 不 采用 特殊 的 具有 针对 性 的 测试 方法 ， 
或 者 任何 标准 分 布 都 不 能 描述 数据 时 ， 要 检测 出 不 一 致 数据 是 不 容易 实现 的 。 


6.5.3 ”基于 距离 的 离 群 点 检测 


基于 距离 的 离 群 点 检测 方法 是 针对 运用 统计 方法 进行 不 一 致 数据 的 检测 所 存在 的 不 足 提 
出 来 的 。 对 象 o 是 一 个 基于 距离 的 孤立 点 ， 通 常用 DB(p.d) 表 示 ， 其 中 p 和 d 为 对 象 % 的 参数 ， 它 
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代表 的 意义 是 数据 集合 S 中 至 少 存在 p 部 分 对 象 与 对 象 o 的 距离 大 于 d。 也 就 是 说 ， 独 立 于 统计 
检验 ， 将 那些 与 给 定 对 象 的 距离 较 大 的 对 象 看 作 是 基于 距离 的 孤立 点 。 与 运用 统计 的 方法 进 
行 离 群 点 检测 相 比 较 ， 基 于 距离 的 不 一 臻 数据 检测 综合 归纳 了 基于 标准 分 布 模型 的 不 一 致 性 
检验 。 基 于 距离 的 不 一 致 性 数据 检测 在 一 定 程度 上 降低 了 计算 量 , 这些 计 算 通 常 是 因为 检测 
方法 的 选择 和 标准 分 布 的 拟 合 等 操作 产生 的 。 

对 于 很 多 异常 值 检 验 ， 如 果 一 个 对 象 对 于 一 个 给 定 的 检验 是 一 个 不 一 臻 数据， 那么 对 恰 
当 的 参数 p 和 d， 对 象 o 也 是 一 个 DB(p,d) 不 一 致 数据 。 目 前 ,已 经 有 不 少 基于 距离 的 离 群 点 检测 
方法 被 提出 ， 例 如 基于 索引 的 算法 、 典 套 循环 算法 和 基于 单元 算法 等 。 基 于 距离 的 离 群 点 检 
测 需 要 手动 设置 参数 p 和 d， 而 找到 合适 的 参数 需要 不 断 地 尝试 ， 这 个 过 程 中 可 能 出 现 错误 的 
参数 设置 。 


6.5.4 ”基于 偏差 的 离 群 点 检测 


基于 偏差 的 离 群 点 检测 是 一 种 通过 检测 对 象 的 特征 从 而 找 出 不 一 致 性 数据 的 方法 。 如 
果 一 个 对 象 偏离 了 给 定 对 象 的 特征 描述 ， 那 么 认为 此 对 象 是 不 一 致 的 。 也 就 是 说 该 方法 中 的 
“偏差 ” 指 的 是 异常 。 

基于 偏差 的 离 群 点 检测 方法 主要 有 以 下 两 种 。 

1. 序列 异常 技术 

该 技术 模仿 了 人 类 可 以 从 一 系列 类 似 的 对 象 中 识别 出 异常 对 象 的 行为 ， 它 使 用 隐 含 的 数 
据 元 余 。 给 定 一 个 包含 n 个 对 象 的 数据 集 D， 建 立 一 个 子 集合 序列 {D, DD…,D,},2 夺 mn， 并 有 
D-1cD;DisD， 评估 序列 中 子 集 之 间 的 差异 度 。 这 个 技术 介绍 了 如 下 几 个 关键 术语 。 

(1) 异常 集 。 就 是 偏离 的 集 或 离 群 点 ， 它 被 定义 为 对 象 的 最 小 子 集 ， 这 个 子 集 的 移 除 
导致 数据 集中 剩余 部 分 的 差异 度 有 最 大 量 的 减少 。 

(2 ) 差异 度 函 数 。 这 个 函数 不 要 求 对 象 间 的 一 个 度量 距离 ， 它 可 以 是 任何 函数 ， 只 要 
满足 条 件 ， 即 给 定 一 个 对 象 集 ， 如 果 某 个 对 象 与 另 一 个 对 象 是 相似 的 ， 那 么 就 返回 一 个 较 低 
的 值 。 对 象 之 间 的 差异 度 越 大 ， 函 数 返回 值 也 越 大 。 

(3 ) 平滑 因子 。 对 于 序列 中 每 个 子 集 ， 这 个 函数 都 会 被 计算 ， 它 估价 了 从 原始 对 象 集 
中 移 除 子 集 后 ， 差 异 度 能 减少 多 少 ， 这 个 值 通过 集 的 基数 来 测量 。 平 滑 因 子 最 大 的 子 集 就 是 
序列 中 的 异常 集 。 

这 个 算法 选择 一 个 子 集 的 序列 来 进行 分 析 ， 对 于 每 个 子 集 ， 它 确定 这 个 子 集 与 序列 中 前 
一 个 子 集 的 差异 度 。 为 了 避免 输入 顺序 对 结果 产生 任何 可 能 的 影响 ,处理 过 程 可 以 重复 若干 
次 ,每 一 次 都 有 子 集 的 一 个 不 同 的 随机 顺序 。 在 所 有 的 迭代 中 ， 有 最 大 平滑 因子 值 的 子 集 就 
是 异常 集 。 

2. OLAP 数 据 立方 体 技术 

一 个 进行 偏离 检测 的 OLAP 方 法 使 用 数据 立方 体 来 辨识 高 维 数据 中 的 异常 区 域 。 为 了 提高 
效率 ， 偏 离 检测 过 程 可 以 与 立方 体 计算 过 程 重 琶 进 行 。 该 方法 是 一 种 探索 驱动 的 方法 ,预先 
计算 的 只 是 数据 异常 的 度量 ， 被 用 来 在 数据 集合 计算 的 所 有 层次 上 指导 用 户 进行 数据 分 析 。 
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如 果 数据 立方 体 中 的 一 个 单元 值 与 基于 一 个 统计 模型 的 期 望 值 显著 不 同 ， 那 么 这 个 单元 值 就 
被 认为 是 一 个 异常 。 这 个 方法 采用 如 背景 颜色 那样 的 可 视 化 提示 来 反映 每 个 单元 的 异常 程 
度 ， 用 户 可 以 选择 对 标志 为 异常 的 单元 进行 向 下 钻 取 。 一 个 单元 的 度量 值 可 能 反映 发 生 在 该 
立方 体 上 的 更 细节 或 更 低层 次 上 的 异常 ， 因 为 这 些 异常 在 当前 层次 上 可 能 是 不 可 见 的 。 

这 个 模型 考虑 了 一 个 单元 所 属 的 所 有 维 上 的 度量 值 的 变化 和 模式 。 例 如 ， 假 设 有 一 个 销 
售 数据 的 数据 立方 体 ， 并 且 要 查看 每 个 月 的 销售 概况 。 在 可 视 化 提示 的 帮助 下 ， 注 意 到 与 其 
他 月 相 比 ， 十 一 月 的 销售 量 有 所 增加 ， 在 时 间 维 上 这 像 是 一 个 异常 。 可 是 ， 通 过 下 载 十 一 月 
来 观察 这 个 月 的 每 一 项 的 销售 ， 可 以 注意 到 十 一 月 中 其 他 项 的 销售 也 有 一 个 相似 的 增加 。 因 
此 ， 如 果 考 虑 到 项 目 维 ， 十 一 月 的 总 销售 上 的 增加 就 不 是 一 个 异常 。 这 个 模型 考虑 了 隐藏 在 
所 有 数据 立方 体 集合 分 组 操作 后 面 的 异常 。 因 为 搜索 的 空间 往往 是 比较 大 的 ， 尤 其 当 维 数 较 
大 且 涉及 到 多 层 时 ， 要 发 现 异 常 ， 仅 仅 依靠 人 工 手动 进行 检测 是 难以 实现 的 。 


和 6.6 复杂 数据 类 型 挖掘 


数据 挖掘 涉及 到 多 学 科 以 及 多 领域 ， 正 是 由 于 数据 挖掘 越 来 越 广泛 的 应 用 ， 需 要 处 理 的 
数据 类 型 也 多 种 多 样 ， 复 杂 数 据 类 型 挖掘 成 为 数据 挖掘 中 一 项 重要 的 前 沿 研 究 课 题 。 本 节 将 
介绍 处 理 一 些 复杂 数据 类 型 的 挖掘 方法 ， 主 要 包括 文本 挖掘 、Web 挖 气 、 时 空 数 据 挖掘 和 多 
媒体 数据 挖掘 等 。 

1. 文本 挖掘 

随 着 信息 技术 的 发 展 ， 互 联网 数据 及 资源 呈现 海量 特征 ， 传 统 的 信息 检索 技术 已 无 法 适 
应 日 益 增 加 的 大 量 文本 数据 处 理 的 需求 ， 人 们 提出 了 文本 挖掘 的 方法 ， 并 将 不 同 的 文档 进行 
比较 ， 并 进行 文档 重要 性 和 相关 性 排列 ， 找 出 多 文档 的 模式 或 趋势 。 

文本 挖掘 的 一 般 处 理 过 程 包括 了 对 大 量 文档 集合 的 内 容 采 取 预 处 理 、 特 征 提取 、 结 构 分 
析 、 文 本 摘要 、 文 本 分 类 、 文 本 聚 类 、 文 本 关联 等 手段 9。 文本 挖掘 不 仅 要 处 理 大量 的 结构 
化 和 非 结构 化 的 文档 数据 ， 而 且 还 要 处 理 其 中 复杂 的 语义 关系 ， 因 此 ， 现 有 的 数据 挖掘 技术 
无 法 直接 用 于 文本 挖掘 。 关 于 非 结 构 化 数据 的 挖掘 ， 目 前 有 两 种 思路 : 一 种 是 开发 新 的 数据 
挖掘 算法 ， 直 接 展开 非 结 构 化 数据 的 挖掘 ， 因 为 数据 类 型 的 复杂 性 ， 使 得 这 种 算法 的 复杂 程 
度 非常 的 高 ; 另 一 种 是 把 非 结 构 化 数据 变 成 结构 化 的 数据 ， 再 通过 已 有 的 数据 挖掘 技术 展开 
挖掘 工作 。 现 在 的 文本 挖掘 技术 通常 都 采用 这 种 方法 进行 。 而 对 于 语义 关系 ， 就 需要 集成 计 
算 语 言 学 以 及 自然 语言 处 理 等 方面 的 成 果 来 加 以 分 析 。 

2. Web 挖 掘 

可 以 说 互联 网 是 一 个 分 布 广泛 、 全 球 性 的 庞大 的 信息 服务 中 心 ， 它 提供 了 多 种 多 样 的 信 
息 服 务 ， 诸 如 教育 、 新 闻 、 广 告 、 政 府 、 金 融 管理 、 消 费 信息 、 电 子 商 务 等 。Web 中 含有 极 


加 http:/wenku.baidu.comylink?url=cJsn4fWgjKZ77xnu9y8PeqzQyAjn77aNgXfWiude02cEOArNADRyw9RzgZyuFls71KheJMHD 
VUhXMsVJ6fVewe9D7J7oNloe4hR5CG63LWK- 
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其 丰富 与 动态 的 超 链接 信息 ， 同 时 还 包括 对 Web 页 面 的 访问 与 使 用 信息 ， 这 些 都 给 数据 挖掘 
提供 了 丰富 的 资源 。 

可 以 把 Web 挖 所 定义 成 : 从 与 WWW 有 关联 的 资源 及 行为 中 获取 有 用 的 模式 以 及 隐 含 的 
信息 。 通 常 Web 挖 掘 可 划分 成 3 类 : (1 ) 在 文档 内 容 或 是 它 的 描述 中 获取 知识 的 过 程 ， 即 
Web 内 容 挖掘 ; (2) 从 WWW 的 组 织 结构 以 及 链接 关系 中 推导 的 知识 ， 即 Web 结 构 挖 气 ; 
(3 ) 从 Web 的 访问 记录 中 抽取 出 感 兴趣 的 模式 ， 即 Web 使 用 记录 的 挖掘 。 

3. 时 空 数据 挖掘 


20 世 纪 90 年 代 中 后 期 ， 数 据 挖掘 领域 的 一 些 较 成 熟 的 技术 ， 如 关联 规则 挖掘 、 分 类 、 预 
测 与 聚 类 等 被 逐渐 用 于 时 间 序 列 数据 挖掘 和 空间 数据 挖掘， 以 发 现 与 时 间或 空间 相关 的 有 价 
值 的 模式 。 随 着 传感器 网 络 、 全 球 定位 系统 ( GPS ) 、 手 持 移动 设备 和 射频 识别 ( RFID ) 等 
设备 的 普遍 应 用 ， 这 些 设备 产生 并 积累 了 大 量 的 移动 对 象 数据 。 此 外 ,遥感 卫星 和 地 理 信息 
系统 ( GIS ) 等 技术 的 显著 进步 ， 使 人 们 前 所 未 有 地 获取 了 大 量 的 气候 数据 、 数 字 影 像 数据 以 
及 地 理科 学 数据 。 这 些 时 空 数 据 内 嵌 于 连续 空间 ， 其 样本 在 时 间 、 空 间 上 存在 很 强 的 自 相关 
性 ， 其 中 隐 含 的 模式 往往 是 局 部 的 ， 从 而 使 时 空 数据 挖 气 具 有 特殊 性 和 复杂 性 。 

按照 数据 挖掘 的 定义 ， 可 将 时 空 数据 挖掘 定义 为 从 具有 海量 、 高 维 、 高 噪声 和 非 线性 等 
特性 的 时 空 数据 中 提取 出 隐 含 的 、 人 们 事先 不 知道 的 、 但 又 潜在 有 用 的 信息 及 知识 的 过 程 。 
时 间 维和 空间 维 为 数据 挖掘 任务 增加 了 额外 的 复杂 性 。 按 照 挖掘 的 任务 主要 可 分 为 以 下 几 
类 : 时 空 模式 发 现 、 时 空 聚 类 、 时 空 异 常 检测 、 时 空 预测 和 分 类 等 。 

4. 多 媒体 数据 挖掘 

随 着 网 络 的 快速 发 展 以 及 信息 技术 的 不 断 进步 ， 数 据 形式 也 日 益 多 样 化 ， 在 这 样 的 环境 
下 ,涌现 出 大 量 的 多 媒体 数据 。 通 常 多 媒体 数据 类 型 有 图 像 、 视 频 、 音 频 、 时 空 数据 以 及 超 
文本 等 。 这 些 多 媒体 数据 隐藏 着 大 量 潜在 有 价值 的 知识 。 多 媒体 数据 控 据 是 综合 分 析 海量 的 
多 媒体 数据 的 视听 特性 和 语义 ,挖掘 出 隐藏 在 其 中 的 、 具 有 一定 价值 的 、 能 够 理解 的 知识 模 
式 ， 找 出 事件 的 趋势 以 及 关联 性 ， 从 而 为 用 户 的 决策 提供 参考 。 

对 数据 的 挖掘 以 及 对 多 媒体 信息 的 处 理 是 多 媒体 信息 挖掘 的 两 个 重要 方向 。 研 究 多 媒体 
信息 挖掘 会 遇 到 很 多 挑战 ， 比 如 针对 媒体 数据 的 特性 ， 如 何 才 能 有 效 地 运用 数据 挖掘 的 理论 
和 方法 进行 多 媒体 数据 挖掘; 利用 多 媒体 的 时 间 、 空 间 、 视 觉 特 性 、 视 听 对 象 以 及 运动 特性 
等 内 容 ， 如 何 快速 有 效 地 挖掘 出 具有 价值 的 知识 规律 等 。 


上 6.7 数据 挖 据 的 研究 前 沿 和 发 展 趋势 


数据 挖掘 涉及 多 个 学 科 领 域 ， 它 融合 了 统计 学 、 数 据 库 、 数 据 仓库 、 机 器 学 习 、 人 工 
智能 、 模 式 识别 、 可 视 化 等 技术 的 研究 成 果 ， 数 据 挖掘 应 用 的 领域 非常 广泛 。 只 要 数据 是 有 
分 析 价 值 的 ， 都 可 以 应 用 数据 挖掘 工具 挖掘 出 有 用 的 信息 。 数 据 挖掘 典型 的 应 用 领域 包括 金 
融 、 医 疗 、 零 售 和 电 商 、 电 信 、 交 通 等 。 另 外 ， 由 于 新 的 数据 类 型 也 随 着 技术 进步 不 断 增 
加 ， 因 此 本 节 还 指出 了 数据 挖掘 的 发 展 趋势 和 所 面临 的 挑战 。 
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6.7.1 数据 挖掘 的 应 用 


数据 挖掘 所 要 处 理 的 问题 ， 就 是 在 庞大 的 数据 中 找 出 有 价值 的 隐藏 事件 ， 并 加 以 分 析 ， 
获取 有 意义 的 信息 和 模式 ， 为 决策 提供 依据 。 数 据 挖掘 应 用 的 领域 非常 广泛 ， 只 要 有 分 析 价值 
与 需求 的 数据 ， 都 可 以 利用 挖掘 工具 进行 发 掘 分 析 。 目 前 ， 数 据 挖掘 应 用 最 集中 的 领域 包括 
金融 、 医 疗 、 零 售 和 电 商 、 电 信和 交通 等 ， 而 且 每 个 领域 都 有 特定 的 应 用 问题 和 应 用 背景 。 

1. 金融 领域 

不 管 是 银行 还 是 其 他 金融 机 构 都 存储 了 海量 的 金融 数据 ， 比 如 信贷 、 储 蓄 与 投资 等 金 
融 数据 。 对 于 这 些 数据 ， 运 用 数据 挖掘 技术 进行 有 针对 性 地 处 理 ， 将 会 得 到 很 多 具有 价值 的 
知识 。 金 融 数据 具有 可 靠 性 、 完 整 性 和 高 质量 等 特点 ， 这 在 很 大 程度 上 利于 开展 数据 挖掘 工 
作 以 及 挖掘 技术 的 应 用 。 数 据 挖掘 在 金融 领域 中 有 许多 具体 的 应 用 ， 例 如 ， 分 析 多 维 数据 ， 
以 把 握 金融 市 场 的 变化 趋势 ; 运用 孤立 点 分 析 等 方法 ， 研 究 洗 黑钱 等 犯罪 活动 ; 应 用 分 类 技 
术 ， 对 顾客 信用 进行 分 类 ， 为 维持 与 客户 的 关系 以 及 为 客户 提供 相关 服务 等 决策 提供 参考 。 

2. 医疗 领域 


在 人 类 的 遗传 密码 、 遗 传 史 、 疾 病史 以 及 医疗 方法 等 医疗 领域 中 ， 都 隐藏 着 海量 的 数据 
信息 。 另 外 ， 对 医院 内 部 结构 、 医 药 器 具 、 病 人 档案 以 及 其 他 资料 等 的 管理 也 产生 了 巨 量 的 
数据 。 对 于 这 些 巨 量 的 数据 ， 运 用 数据 挖掘 相关 技术 进行 处 理 ， 从 而 得 到 相关 知识 规律 ， 将 
有 利于 相关 人 员工 作 的 开展 。 运 用 数据 挖掘 技术 ， 在 很 大 程度 上 有 助 于 医疗 人 员 发 现 疾病 的 
一 些 规律 ， 从 而 提高 诊断 的 准确 率 和 治疗 的 有 效 性 ， 不 断 促 进 人 类 健康 医疗 事业 的 发 展 。 

3. 零售 和 电 商 领域 

由 于 零售 业 会 产生 庞大 的 数据 ， 主 要 是 销售 数据 ， 比 如 商品 的 购 进 卖 出 记录 、 客 户 购 
买 、 消 费 记录 等 。 特 别 是 随 着 在 Web 以 及 电子 商务 等 商业 方式 日 益 普及 流行 ， 相 应 地 数据 也 
以 飞快 的 速度 增长 着 。 运 用 数据 挖掘 技术 对 这 些 海量 的 数据 进行 针对 性 的 处 理 分析 ， 可 以 获 
取 很 多 极 具 价值 的 知识 。 例 如 可 以 有 效 地 识别 顾客 的 购买 行为 ， 从 而 把 握 好 顾客 购买 的 趋 
势 。 这 些 关于 顾客 的 有 效 信息 是 商家 采取 最 佳 决策 的 关键 依据 。 商 家 可 以 根据 数据 挖掘 结果 
有 针对 性 的 采取 有 效 措施 ， 比 如 如 何 改进 服务 质量 ,确保 顾客 的 满意 度 ; 如 何 提高 商品 的 销 
售 量 ; 如 何 设 计较 优 的 运输 路 线 以 及 采取 怎样 的 销售 策略 等 ， 从 而 提高 企业 效益 。 此 外 ， 由 
于 数据 挖掘 的 推荐 系统 已 经 成 为 电子 商务 的 关键 技术 ， 通 过 数据 挖掘 再 对 网 站 进行 系统 分 
析 ， 对 用 户 的 行为 模式 加 以 识别 ， 在 增加 客户 粘性 ， 提 供 个 性 化 服务 ， 优 化 网 站 设计 等 方面 
也 取得 了 很 好 的 效果 。 

4. 电信 和 领域 

电信 运营 商 已 逐渐 发 展 为 一 个 融合 了 语音 、 图 像 、 视 频 等 增值 服务 的 全 方位 立体 化 的 综 
合 电 信服 务 商 。 三 网 融合 ， 即 电信 网 、 因 特 网 和 有 线 电 视 网 的 “融合 ”， 是 未 来 的 一 种 发 展 
趋势 ， 这 一 现象 将 会 产生 巨 量 的 数据 。 运 营 商 要 合理 的 分 析 商 业 形 式 和 模式 ， 运 用 数据 挖掘 
是 非常 有 必要 的 。 例 如 : 对 用 户 行为 、 利 润 率 、 通 信 速 率 和 容量 、 系 统 负载 等 电信 数据 ， 可 
以 运用 多 维 分 析 方法 进行 分 析 ; 要 发 现 异常 模式 ， 可 以 运用 聚 类 或 孤立 点 分 析 等 方法 进行 数 


第 6 章 “数据 挖掘 技术 | 225 


据 挖掘 ; 要 得 到 电信 发 展 的 影响 因素 ， 可 以 运用 关联 或 序列 等 模式 进行 分 析 等 。 总 之 ， 数 据 
挖掘 技术 对 电信 业 的 发 展 发 挥 着 非常 重要 的 作用 ， 比 如 如 何 提高 相关 资源 的 利用 率 、 更 深入 
更 充分 地 了 解 用 户 行 为 、 如 何 获取 更 多 的 经 济 效益 等 。 

5. 交通 领域 

交通 问题 对 城市 的 民生 有 很 大 影响 ， 该 领域 积累 了 大 量 的 数据 比如 出 租 公 司 积累 的 乘 
客 出 行 数据 和 公交 公司 的 运营 数据 。 通 过 对 乘客 数据 和 运营 数据 进行 分 析 和 挖掘 ， 能 够 为 公 
交 、 出 租 公 司 科学 的 运营 和 交通 部 门 的 决策 提供 依据 ， 比 如 合理 规划 公交 线路 ， 实 时 为 出 租 
车 的 行驶 线路 提供 建议 等 。 这 样 ， 不 但 可 以 提升 城市 运力 和 幸福 指数 ， 还 能 有 效 减少 因 交 通 
拥堵 问题 造成 的 成 本 浪费 。 另 外 ， 航 空 公司 也 可 依据 历史 记录 来 寻找 乘客 的 旅行 模式 ， 以 便 
提供 更 加 个 性 化 的 服务 ,合理 设置 航线 等 。 

近年 来 ， 数 据 挖掘 的 应 用 发 展 迅 速 ， 不 仅 在 以 上 和 领域， 在 政府 部 门 、 军 事 、 制 造 业 、 科 
学 研究 等 方面 也 都 取得 了 一 定 的 进展 。 


6.7.2 ”数据 挖掘 中 的 隐私 问题 


隐私 权 是 指 个 体 的 私人 信息 不 被 他 人 非法 收集 、 公 开 和 利用 的 权利 。 隐 私 保护 就 是 保护 
个 体 的 隐私 权 不 被 侵害 ， 保 护 个 体 隐 私 在 未 经 授权 的 时 候 不 被 泄露 和 恶意 利用 。 基 于 隐私 的 
数据 挖掘 存在 两 个 层面 的 问题 : 

(1 ) 原始 信息 隐私 保护 。 企 业 、 医 院 、 政 府 部 门 通常 收集 了 大 量 的 个 人 原始 信息 ， 泄 
露 这 些 信息 可 能 识别 出 个 人 用 户 的 身份 。 为 了 防止 个 人 隐私 的 泄露 ， 这 些 原始 数据 均 需 要 在 
进行 数据 挖掘 之 前 进行 修改 和 隐藏 。 这 个 层面 主要 解决 的 问题 是 如 何在 原始 数据 不 准确 的 前 
提 下 得 到 正确 的 挖 气 结 果 。 

(2 ) 敏感 规则 隐私 保护 。 企 业 、 医 院 、 政 府 部 门 不 仅 存储 着 大 量 的 个 人 原始 信息 ， 通 
过 对 这 些 原始 信息 的 挖掘 ， 还 可 以 得 知 某 一 群体 的 特征 和 行为 规律 。 为 了 防止 这 些 敏 感 规则 
被 挖掘 出 来 ， 通 常事 先 改变 原始 数据 的 统计 特征 ， 使 这 些 敏 感 规则 的 生成 概率 大 大 降低 。 

我 们 既 不 能 否认 通过 数据 挖掘 产生 的 巨大 利益 ， 也 不 能 因为 存在 有 隐私 保护 的 问题 就 废 
弃 数 据 挖掘 ， 而 是 应 当 正视 存在 的 隐私 保护 的 现状 和 方法 。 目 前 隐私 保护 技术 正 得 到 越 来 越 
多 的 关注 ， 在 保护 隐私 信息 方面 还 需要 更 多 的 探索 。 更 好 的 一 个 愿景 是 ， 从 计算 机 科学 、 管 
理科 学 、 社 交 网 络 技术 、 政 策 法 规 等 多 个 方面 有 效 的 结合 在 一 起 ， 共 同 来 完成 从 数据 中 安全 
和 无 泄漏 地 发 现 有 效 的 知识 。 


6.7.3 数据 挖掘 的 发 展 趋势 


数据 挖掘 已 慢 慢 地 从 高 端的 研究 转向 日 常 的 应 用 ,在 金融 业 、 零 售 业 等 一 些 对 数据 分 析 
需求 比较 大 的 领域 已 经 成 功 地 采用 了 数据 挖掘 技术 来 辅助 决策 。 尽 管 如 此 ， 由 于 技术 的 进步 
和 社会 的 发 展 ， 数 据 挖掘 技术 仍然 面临 着 许多 新 的 问题 和 挑战 。 


1. 数据 挖掘 与 物 联 网 、 云 计算 和 大 数据 
简单 来 说 ， 物 联网 就 是 物 物 相连 的 网 络 ， 是 数字 世界 与 物理 世界 的 高 度 融合 。 物 联网 底 
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层 的 大 量 传感器 为 信息 的 获取 提供 了 一 种 新 的 方式 ， 这 些 传感器 不 断 地 产生 着 新 的 数据 ， 随 
着 各 种 各 样 的 异 构 终端 设备 的 接 入 ， 物 联网 采集 的 数据 量 也 就 会 越 来 越 大 ， 其 数据 类 型 和 数 
据 格 式 也 会 越 来 越 复杂 。 这 些 数 据 与 时 间 和 空间 相关 联 ， 有 着 动态 、 异 构 和 分 布 的 特性 ， 也 
为 数据 挖 所 任务 带 来 了 新 的 挑战 

云 计算 是 一 种 基于 互联 网 的 相关 服务 的 增加 、 使 用 和 交付 模式 ， 通 常 涉及 通过 互联 网 来 
提供 动态 、 易 扩展 且 经 常 是 虚拟 化 的 资源 (包括 硬件 、 平 台 和 软件 ) ， 实 现 了 设备 之 间 的 数 
据 应 用 和 共享 。 随 着 物 联网 的 发 展 ， 感 知 的 信息 不 断 增加 ， 需 要 不 断 地 增加 服务 器 的 数目 来 
满足 需求 ， 但 由 于 服务 器 的 承载 能 力 是 有 限 的 ， 使 得 服务 器 在 节点 上 出 现 混乱 和 错误 的 几率 
大 大 增加 。 为 了 更 好 地 提供 服务 ， 基 于 云 计算 的 系统 能 有 效 地 解决 物 联网 分 布 式 数据 挖掘 中 
所 遇 到 的 问题 ， 在 进行 相关 数据 挖 气 时 能 够 显著 的 提高 性 能 。 

目前 ， 大 数据 已 成 为 继 物 联网 、 云 计算 之 后 又 一 信息 科技 的 新 热点 。 大 数据 在 本 质 上 仍 
然 是 海量 数据 ， 但 规模 更 大 ， 实 时 性 和 多 样 性 特点 更 明显 ， 相 应 地 数据 挖掘 技术 也 需要 有 所 
改进 ， 研 究 如 何 处 理 半 结构 化 甚至 非 结构 化 的 数据 是 目前 大 数据 挖掘 面临 的 挑战 之 一 。 

将 物 联网 、 云 计算 、 大 数据 与 数据 挖掘 研究 联系 起 来 ， 不 仅 具有 深远 的 科学 研究 价值 ， 
而 且 将 产生 巨大 的 经 济 效益 和 社会 价值 - 

2. 数据 挖掘 研究 和 应 用 面临 的 挑战 


大 数据 时 代 的 数据 挖掘 面临 着 新 的 挑战 ， 主 要 表现 在 以 下 几 个 方面 。 

数据 类 型 的 多 样 性 :不 同 的 应 用 、 系 统 和 终端 ， 由 于 标准 的 差异 性 ， 会 产生 不 同 结构 的 
数据 ， 其 中 包括 结构 化 数据 ， 半 结构 化 数据 和 非 结构 化 数据 ， 对 这 些 异 构 化 数据 的 抽取 与 集 
成 将 成 为 一 大 挑战 。 

数据 挖掘 算法 的 改进 : 大 数据 时 代数 据 的 量 级 达到 了 一 个 新 的 阶段 ， 而 且 还 有 其 他 新 的 
特征 ， 现 有 挖掘 算法 需要 基于 云 计算 进行 改进 ， 以 适应 不 同 应 用 对 数据 处 理 能 力 的 需求。 

数据 噪声 太 大 ， 由 于 普 适 终端 的 所 处 地 理 位 置 的 复杂 性 ， 使 得 产生 的 数据 具有 很 多 只 
声 。 在 进行 数据 清洗 时 ， 不 易 把 握 清 洗 粒度 。 粒 度 太 大 ， 残 留 的 噪声 会 十 护 有 价值 的 信息 ; 
粒度 太 小 ， 可 能 会 遗失 有 价值 的 信息 。 

数据 的 安全 性 与 隐私 保护 :互联 网 的 交互 性 ， 使 得 人 们 在 不 同 地 点 产生 的 数据 足迹 得 到 积 
累 和 关联 ， 从 而 增加 了 隐私 暴露 的 概率 ， 且 这 种 隐 性 的 数据 暴露 往往 是 无 法 控制 和 预知 的 。 随 
着 数据 挖 气 工 具 和 电子 产品 的 日 益 普及 ， 保 护 隐 私 和 信息 安全 是 数据 挖掘 将 要 面 对 的 一 个 重要 
问题 。 这 就 需要 进一步 地 开发 ， 以 便 在 适当 的 信息 访问 和 挖 气 过 程 中 保护 隐私 与 信息 安全。 

3. 数据 挖掘 的 发 展 方向 


应 用 的 探索 : 数据 挖掘 正在 探索 、 扩 大 其 应 用 范围 ， 通 用 数据 挖掘 技术 在 处 理 特定 应 用 
时 存在 着 局 限 性 。 因 此 ， 目 前 有 一 种 针对 特定 应 用 来 开发 数据 挖掘 系统 的 趋势 。 

可 视 化 数据 挖掘 : 可 视 化 能 更 直观 地 展示 数据 的 特性 ， 具 图 像 展 示 更 符合 人 的 观察 习 
惯 。 可 视 化 数据 挖掘 已 成 为 从 大 量 数据 中 发 现 知识 的 有 效 途 径 ， 系统 研 究 和 开发 可 视 化 数据 
挖掘 技术 将 推进 数据 挖掘 作为 数据 分 析 的 基本 工具 -。 

数据 挖掘 与 数据 库 / 数 据 仓库 系统 和 其 他 应 用 系统 的 集成 : 数据 库 /数据 仓库 系统 等 已 经 
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成 为 信息 处 理 系统 的 主流 ， 而 且 与 数据 库 和 数据 仓库 系统 的 紧 耦 合 方式 正 是 数据 挖掘 系统 的 
理想 体系 结构 。 将 不 同 的 系统 集成 到 统一 的 框架 中 ， 有 利于 保证 数据 的 可 获得 性 和 一 致 性 ， 
以 及 数据 挖掘 系统 的 可 移植 性 、 可 伸缩 性 和 高 性 能 。 

数据 挖掘 的 应 用 在 很 多 领域 取得 了 一 定 的 成 果 ， 而 且 其 广阔 的 应 用 前 景 已 吸引 了 众多 的 
研究 人 员 和 商业 公司 的 加 入 。 但 是 数据 挖掘 所 带 来 的 有 关 隐 私 和 信息 安全 的 问题 ， 需 要 着 重 
考虑 。 数 据 挖掘 技术 发 展 的 时 间 很 得， 属 新 兴 科 学 ， 在 技术 和 社会 不 断 发 展 的 今天 ， 还 面临 
着 很 多 挑战 和 值得 重点 研究 的 方向 ， 相 信 数 据 挖掘 技术 的 研究 与 应 用 将 会 得 到 长 足 的 进步 ， 
必 将 产生 巨大 的 经 济 和 社会 效益 。 


有 6.8 练习 


1. 简 述 数据 库 知识 发 现 的 过 程 。 

2. 介绍 数据 挖掘 任务 有 哪 几 种 类 型 ， 各 种 类 型 的 含义 是 什么 。 

3. 给 出 一 个 未 在 本 章 讨论 的 关联 分 析 的 案例 。 

4. 简 述 分 类 的 基本 思想 和 解决 分 类 问题 的 一 般 过 程 ， 并 举例 说 明 如 何 利用 分 类 方法 预测 
用 户 购买 电脑 的 模型 。 

5. 简 述 聚 类 分 析 的 原理 和 过 程 ， 说 明 k-Means 算 法 的 基本 思想 和 聚 类 过 程 。 

6. 介绍 离 群 点 检测 的 类 型 ， 并 介绍 一 下 离 群 点 检测 有 哪些 应 用 场景 。 

7. 归纳 数据 挖掘 面临 的 挑战 和 发 展 的 趋势 。 
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数据 分 析 语 言 


在 海量 数据 爆炸 的 时 代 ， 传 统 的 技术 架构 已 无 法 满足 海量 数据 处 理 的 需求 。 陆 续 出 现 的 
新 技术 与 手段 给 解决 海量 数据 的 存储 以 及 数据 查询 的 的 延 时 问题 等 提供 了 可 能 。 其 中 ,开源 统 
计 分 析 语 言 R 被 广泛 应 用 于 统计 、 金 融 、 医 学 等 多 个 行业 。R 的 灵活 性 以 及 开放 性 ， 使 得 越 来 
越 多 的 数据 分 析 师 关注 这 款 软件 ， 其 在 大 数据 处 理 中 的 应 用 也 越 来 越 被 学 界 和 业界 所 重视 。 


有 7.1 RR 概述 


7.1.1 R 是 什么 

R 是 一 套 由 数据 操作 、 计 算 和 图 形 展示 功能 经 过 整合 而 形成 的 套件 ， 是 一 个 开放 ( GPL ) 
的 统计 编程 环境 。 它 包括 2: 能 够 有 效 的 进行 数据 存储 和 处 理 的 功能 ， 为 数据 分 析 和 展示 提 
供 了 强大 的 图 形 功 能 ， 体 系 完整 的 数据 分 析 工 具 ， 一 套 与 S-PLUS 所 基于 的 S 语 言 一 样 简单 、 
完善 、 有 效 的 编程 语言 以 及 一 套 完整 的 数组 ( 特别 是 矩阵 ) 计算 操作 符 。 前 面 所 说 的 “ 环 
境 ”( environment ) 在 这 里 是 为 了 说 明 R 的 定位 是 一 个 完善 、 统 一 的 系统 ， 而 非 像 其 他 统计 
分 析 软 件 那样 作为 一 个 专门 、 不 灵活 的 附属 工具 。R 很 适合 用 于 与 发 展 中 的 新 方法 所 进行 的 
交互 式 数据 分 析 @ 。 

R 是 诞生 于 1980 年 左右 的 S 语 言 的 一 个 分 支 ， 而 $ 语 言 是 由 AT&T 贝 尔 实 验 室 开发 的 一 种 
用 来 进行 数据 探索 、 统 计 分 析 和 作 图 的 解释 型 语言 。 最 初 $ 语 言 的 实现 版 本 主要 是 S-PLUS ， 
S-PLUS 是 一 个 商业 软件 ， 它 基于 S 语 言 ， 并 由 MathSoft 公 司 的 统计 科学 部 进一步 完善 。R 的 
使 用 与 5s-PLUS 有 很 多 类 似 之 处 ， 这 两 种 语言 有 一 定 的 兼容 性 。S-PLUS 的 使 用 手册 ， 只 要 稍 
加 修改 就 可 作为 R 的 使 用 手册 。R 语 言 是 Auckland 大 学 统计 系 的 Robert Gentleman 和 RossIhaka 
于 1995 年 开始 编制 ， 并 且 首 次 发 布 ， 后 来 经 过 R-1.0 ( 2000 年 ) ，R-2.0 (2004 年 ) ，R-3.0 
(2013 年 ) 版 本 。 目 前 R 由 志愿 者 组 成 的 国际 团队 来 维持 。 

R 的 特点 包括 以 下 几 方面 : 

(1) 多 数 商 业 统计 软件 都 是 收费 的 ， 但 R 是 一 个 免费 的 统计 分 析 软 件 ( 环境 ) 。 

(2 ) R 是 一 个 内 嵌 了 许多 实用 的 统计 分 析 函 数 的 全 面 的 统计 研究 平台 ， 其 分 析 结 果 能 直 
接 显示 ， 其 中 ,一 些 中 间 结 果 不 但 可 以 在 专门 的 文件 中 保存 ， 也 可 以 进行 下 一 步 分 析 。 在 R 
(OO) http://wenku.baidu.com/view/2a00afc805087632311212b8.html 
@® http://wenku.baidu.com/view/00aacaea6294dd88d0d26b7f.html 
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中 可 以 完成 各 种 类 型 的 数据 分 析 工 作 。 

(3 ) R 拥 有 超 高 水 准 的 制图 功能 ， 拥 有 一 系列 最 强大 最 全 面 的 将 复杂 数据 可 视 化 的 功 
能 ， 其 内 嵌 的 作 图 函数 可 将 产生 的 图 片 保存 为 多 种 格式 的 文件 ( 例如 jpg，ps，png，pdf， 
bmp，xfig，emf，Ppictex ) ， 并 且 能 在 一 个 独立 的 窗口 中 展示 。 

(4) 帮助 功能 很 完善 ，R 嵌 入 了 一 个 非常 实用 的 帮助 系统 ， 随 软件 所 附 的 pdf 或 hmml 帮 助 
文件 可 以 随时 通过 主 菜 单打 开 、 浏 览 或 打印 。 通 过 help 命 令 可 随时 了 解 R 所 提供 的 各 类 函数 的 
使 用 方法 和 范例 。 

(5 ) 可 从 多 个 不 同 数据 源 获取 数据 并 将 数据 转化 为 可 用 的 形式 。R 可 以 轻松 地 从 各 种 类 
型 的 数据 源 导入 数据 ， 包 括 文本 文件 、 数 据 库 管理 系统 、 统 计 软 件 ， 乃 至 专门 的 数据 仓库 ， 
它 同样 可 以 将 数据 输出 并 写 入 到 这 些 系 统 中 。 

(6 ) R 可 运行 于 多 种 平台 之 上 ,包括 Linux，Windows 和 Mac 0S 等 操作 系统 。 

R 语 言 不 断 发 展 和 完善 的 根本 原因 在 于 其 开放 性 和 灵活 性 的 特点 ， 以 及 业界 最 广泛 的 
支持 。 同 时 R 语 言 也 获得 了 越 来 越 多 业界 及 学 术 界 的 认可 。 目 前 ， 越 来 越 多 的 高 科技 企业 、 
金融 机 构 、 制 药 公 司 以 及 几乎 所 有 的 西方 大 学 与 研究 机 构 都 在 使 用 R 语 言 来 开展 数据 分 析 工 
作 。2012 年 R 语 言 在 “过 去 十 二 个 月 中 你 在 实际 项 目 中 使 用 的 数据 挖掘 或 分 析 工 具 ” 的 调查 
中 ,击败 了 2010 年 排名 第 一 的 Excel 和 2011 年 排名 第 一 的 Rapidminer， 荣 登 榜 首 。 而 KDNuggets 
在 2013 年 做 的 “使 用 何 种 编程 或 统计 类 语言 进行 分 析 和 数据 挖 气 ” 的 调查 中 ，BR 语 言 击 败 了 
Python 、SQL、JAVA 和 SAS， 以 60.9% 的 得 票 率 再 一 次 荣 登 榜首 。 


7.1.2 R 的 获取 与 安装 


R 的 安装 文件 及 说 明 的 获取 非常 方便 ， 可 以 在 CRAN ( Comprehensive R Archive Network ) 
上 免费 下 载 ， 网 址 为 http://eran.r-project.org?。 由 于 具有 Linux、Mac 0S 和 Windows 相 应 编译 好 
的 二 进 制版 本 ，BR 的 安装 非常 容易 ， 运 行 从 网 站 上 下 载 的 程序 ， 如 R-3.1.0-win32.exe ( R for 
WindowsSetup ) ， 按 照 Windows 的 提示 安装 即 可 。 

安装 完成 后 ， 程 序 会 创建 R 程 序 组 并 在 桌 ges ss me eo 
面 创建 R 主 程序 的 快捷 方式 ( 可 以 在 安装 过 程 ss 
中 选择 不 创建 ) ， 通 过 快捷 方式 运行 R, 便 可 
调 出 R 的 主 窗口 ， 如 图 7.1 所 示 。 

R 软 件 的 操作 界面 与 Windows 的 其 他 编程 | 
软件 相 类 似 ， 由 一 些 菜单 和 按钮 组 成 ， 在 菜 | 
单 下 便 是 命令 输入 窗口 ， 也 是 部 分 运算 结果 | 最 守 让 2， 放生 
的 输出 窗口 ， 有 些 运算 结果 会 在 新 建 窗口 中 上 
输出 。 在 命令 输入 窗口 中 显示 的 “>” 符 号 是 
R 命 令 的 提示 符 ， 当 在 其 后 面 输入 命令 ， 按 下 “ 
回 车 键 后 便 会 给 出 输出 结果 。 四 

R 最 初 是 一 种 基于 数学 脚本 的 语言 ， 前 身 为 S 语 言 。 但 是 论 数 学 ， 远 不 及 专业 的 Matlab 和 
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SAS， 论 脚本 功能 ， 又 不 及 Python 和 Perl。 随 着 R 语 言 的 发 展 ， 在 功能 强大 的 IDE，Rstudio 和 BR 
本 身 开源 的 双重 帮助 下 ，R 语 言 成 为 了 一 门 真正 的 语言 。 现 在 的 R 语 言 是 面向 对 象 的 ， 可 方便 
调试 ， 可 并 行 处 理 和 接口 处 理 的 ， 程 序 设 计 功 能 也 不 亚 于 C/C++、Java 等 高 级 语言 。 


7.1.3 R 的 使 用 


1. 新 手 入 门 

R 是 一 种 区 分 大 小 写 的 解释 型 语言 。 可 以 在 命令 提示 符 ( > ) 后 每 次 输入 并 执行 一 条 命 
令 ， 也 可 以 一 次 性 执行 写 在 脚本 文件 中 的 一 组 命令 。R 包 括 多 种 数据 类 型 : 向 量 、 和 矩阵 、 数 
据 框 (与 数据 集 类 似 ) 以 及 列表 ( 各 种 对 象 的 集合 ) 。 

R 中 的 多 数 功能 是 由 程序 内 置 的 函数 和 用 户 自 定义 的 函数 来 提供 的 。 一 次 交互 式 会 话 期 
间 的 所 有 数据 对 象 都 被 保存 在 内 存 中 。 一 些 基本 函数 默认 是 直接 可 用 的 ， 而 其 他 高 级 函数 则 
包含 于 按 需 加 载 的 程序 包 中 。R 语 句 由 函数 和 赋值 构成 。R 使 用 <-， 而 不 是 传统 的 = 作为 赋值 
符号 。 例 如 ， 一 个 名 为 n 的 对 象 ， 其 内 容 是 数值 10， 可 执行 下 述 命令 : 
>n<-10 
ny 
[EY 0 

方 括号 中 的 数字 1 表示 从 n 的 第 一 个 元 素 开始 显示 。 

2. 获取 帮助 


R 提 供 了 大 量 的 帮助 文档 ， 学 会 如 何 使 用 这 些 帮 助 文档 可 以 在 相当 程度 上 助力 用 户 的 
编程 工作 。R 内 置 的 帮助 系统 提供 了 当前 已 安装 包 中 所 有 函数 的 细节 、 参 考 文献 以 及 使 用 示 
例 。 帮 助 文档 可 以 通过 表 7.1 中 列 出 的 函数 进行 查看 。 


表 7.1 _R 中 的 帮助 函数 
help("foo") 或 ?foo 
help.search("foo") 或 ??foo 
example("fo0") 


RSiteSearch("foo") 


打开 帮助 文档 首页 
查看 函数 foo 的 帮助 ( 引号 可 以 省 略 ) 
以 foo 为 关键 词 搜索 本 地 帮助 文档 
函数 foo 的 使 用 示例 ( 引号 可 以 省 略 ) 
以 fo0 为 关键 词 搜索 在 线 文档 和 邮件 列表 存档 
列 出 名 称 中 含有 foo 的 所 有 可 用 函数 


apropos("foo", mode="function") 


data() 列 出 当前 已 加 载 包 中 所 含 的 所 有 可 用 示例 数据 集 
vignette() 列 出 当前 已 安装 包 中 所 有 可 用 的 vignette 文 档 


为 主题 {foo 显示 指定 的 vignette 文 档 


执行 函数 help.start() 时 会 打开 一 个 浏览 器 窗口 ， 用 户 可 在 其 中 查看 入 门 和 高 级 的 帮助 手 
册 、 常 见 问题 集 ， 以 及 参考 材料 。 函 数 RSiteSearch0 可 在 在 线 帮 助手 册 和 R-Help 邮 件 列表 的 讨 
论 存档 中 搜索 指定 主题 ， 并 在 浏览 器 中 返回 结果 。 由 函数 vignette( 函 数 返回 的 vignette 文 档 一 
般 是 PDF 格式 的 实用 介绍 性 文章 。 不 过 ,并 非 所 有 的 包 都 提供 了 vignette 文 档 。 不 难 发 现 ，R 
提供 了 大 量 的 帮助 功能 ， 学 会 如 何 使 用 这 些 帮助 文档 ， 毫 无 疑问 地 会 有 助 于 编程 。 笔 者 经 常 


vignette("foo) 
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会 使 用 ? 来 查看 某 些 函数 的 功能 ( 如 选项 或 返回 值 ) 。 
3. 工作 空间 


工作 空间 就 是 当前 R 的 工作 环境 ， 它 储存 着 所 有 用 户 定 义 的 对 象 ( 向 量 、 和 矩阵 、 函 数 、 
数据 框 、 列 表 ) 。 在 一 个 R 会 话 结束 时 ， 可 以 将 当前 工作 空间 保存 到 一 个 镜像 中 ， 并 在 下 次 
启动 R 时 自动 载 人 它 。 各 种 命令 可 在 R 命 令 行 中 交互 式 地 输入 。 使 用 上 下 方向 键 查看 已 输入 命 
令 的 历史 记录 。 这 样 用 户 就 可 以 选择 一 个 之 前 输入 过 的 命令 并 适当 修改 ,最 后 按 回 车 键 重 新 
执行 它 。 

当前 的 工作 目录 是 R 用 来 读 取 文件 和 保存 结果 的 默认 目录 。 查 看 当前 工作 目录 的 函数 是 
getwd0， 当 前 的 工作 目录 还 可 使 用 函数 setwd0 进 行 设 定 。 若 需要 读 和 人 一 个 不 在 当前 工作 目录 
下 的 文件 ， 在 调用 语句 中 应 该 要 写 明 完整 的 路 径 ， 目 录 名 和 文件 名 并 使 用 引号 进行 闭合 。 

用 于 管理 工作 空间 的 部 分 标准 命令 见 表 7.2。 

表 7.2 ”用 于 管理 R 工 作 空 间 的 函数 

功能 
getwd() 显示 当前 的 工作 目录 
修改 当前 的 工作 目录 为 mydirectory 
1s0 ”| 烈 贞 当 前 工作 空间 中 的 对 象 
出 除 一 个 或 多 个 对 和 
help(options) 显示 可 用 选项 的 说 明 
显示 最 近 使 用 过 的 # 个 命令 ( 默认 值 为 25 ) 
保存 命令 历史 到 文件 myfile 中 (默认 值 为 .Rhistory ) 
loadhistory("myfile") 载 和 一 个 命令 历史 文件 ( 默认 值 为 .Rhistory ) 
保存 工作 空间 到 文件 myfile 中 ( 默认 值 为 .RData ) 
save(objectlist,file="myfile") 保存 指定 对 象 到 一 个 文件 中 
读 取 一 个 工作 空间 到 当前 会 话 中 (默认 值 为 .RData ) 
lo0 | 盟 #R, 将 会 询问 你 是 否 保存 工作 空间 

首先 ， 当前 工作 目录 被 设置 为 C:/myprojects/projectl ， 当前 的 选项 设置 情况 将 显示 出 来 ， 
而 数字 将 被 格式 化 ， 显 示 为 具有 小 数 点 后 三 位 有 效 数 字 的 格式 。 然 后 ， 我 们 创建 了 一 个 包 
含 20 个 均匀 分 布 随机 变量 的 向 量 ， 生 成 了 此 数据 的 摘要 统计 量 和 直方 图 。 最 后 ， 命 令 的 历史 
记录 保存 到 文件 .Rhistory 中 ， 工 作 空间 ( 包含 向 量 x ) 保存 到 文件 .RData 中 ， 会 话 结束 。 注 意 
setwd0 命 令 的 路 径 中 使 用 了 正 斜 杠 。R 将 反 斜 杠 (\ ) 作为 一 个 转 义 符 。 即 使 在 Windows 平 台 上 
运行 R， 在 路 径 中 也 要 使 用 正 斜 杠 。 同 时 函数 setwd0 不 会 自动 创建 一 个 不 存在 的 目录 。 如 果 必 
要 的 话 ， 可 以 使 用 函数 dir.create0 来 创建 新 目录 ， 然 后 使 用 setwd0 目 录 指 向 这 个 新 目录 。 在 独 
立 的 目录 中 保存 项 目 是 一 个 好 主意 。 笔 者 通常 会 在 启动 一 个 R 会 话 时 使 用 setwd0 命 令 指 定 到 某 
一 个 项 目的 路 径 ， 后 接 不 加 选项 的 load0 命 令 。 这 样 做 可 以 让 用 户 从 上 一 次 会 话 结束 的 地 方 重 
新 开始 ， 并 保证 各 个 项 目 之 间 的 数据 和 设置 互 不 干扰 。 在 Windows 和 Mac OS X 平 台 上 完成 类 
似 的 操作 就 更 简单 了 ， 只 需 跳 转 到 项 目 所 在 目录 并 双击 保存 的 镜像 文件 即 可 完成 启动 R， 载 
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入 保存 的 工作 空间 ， 并 设置 当前 工作 目录 到 这 个 文件 夹 中 。 

4. 输入 与 输出 

启动 R 后 将 默认 开始 一 个 交互 式 的 会 话 ， 从 键盘 接受 输入 并 在 屏幕 上 输出 。 不 过 也 可 以 
将 处 理 的 命令 集 写 在 一 个 脚本 文件 (一 个 包含 了 BR 语句 的 文件 ) 中 并 直接 将 结果 输出 到 多 类 
目标 中 。 

(1) 输入 

函数 source("filename") 可 在 当前 会 话 中 执行 一 个 脚本 ， 当 文件 名 中 如 果 没 有 包含 路 径 
时 ，R 将 默认 此 脚本 在 当前 工作 目录 中 。 举 例 来 说 ，source("myscript.R") 将 执行 包含 在 文件 
myscripLR 中 的 R 语 句 集合 。 依 照 惯例 ， 脚 本 文件 以 .R 作 为 扩展 名 ， 不 过 这 并 不 是 必需 的 。 

(2 ) 文本 输出 

函数 sink("filename") 将 输出 重 定向 到 文件 filename 中 。 默 认 情 况 下 ， 如 果 文 件 已 经 存在 ， 
则 它 的 内 容 将 被 新 内 容 覆 盖 。 使 用 参数 append=TRUE 可 以 将 输出 的 文本 追加 到 文件 的 后 部 ， 
而 不 会 覆盖 原 有 的 内 容 。 参 数 split=TRUE 可 将 输出 内 容 同时 发 送 到 屏幕 和 输出 文件 中 。 不 加 
参数 调用 命令 sink0， 将 仅 向 屏幕 输出 结果 。 

(3 ) 图 形 输出 
虽然 sink0 可 以 重 定向 文本 输出 ， 但 它 对 图 形 输出 没有 影响 。 要 重 定向 图 形 输出 ， 使 用 表 
中 列 出 的 函数 即 可 。 最 后 使 用 dev.off0 将 输出 返回 到 终端 。 
表 7.3 ”用 于 保存 图 形 输出 的 函数 


输出 


EE 


DD 


Er 
0 
ariel 
i 


postscript("filename.ps") PostScript 文 件 


7.1.4 R 包 


R 提 供 了 大 量 开 箱 即 用 的 功能 ， 但 它 最 激动 人 心 的 一 部 分 功能 是 通过 可 选 模块 来 实现 
的 ， 这 些 模块 需要 下 载 和 安装 。 目 前 共有 4000 多 个 称 为 包 ( package ) 的 用 户 贡献 模块 可 从 
http://eran.r-project.org/web/packages 下 载 。 这 些 包 提供 了 横 跨 各 种 领域 、 数 量 惊 人 的 新 功能 ， 
比如 分 析 地 理 数 据 、 处 理 蛋白 质 质谱 ， 甚 至 是 心理 测验 分 析 的 功能 。 

1. 什么 是 包 

包 是 R 函 数 、 数 据 、 预 编译 代码 以 一 种 定义 完善 的 格式 组 成 的 集合 。 计 算 机 上 存储 包 的 
目录 称 为 库 (library ) 。 函 数 .libPaths0 能 够 显示 库 所 在 的 位 置 ， 函 数 library0 则 可 以 显示 库 中 
有 哪些 包 。R 自 带 了 一 系列 默认 包 (包括 base、datasets 、utils 、 grDevices 、graphics 、 stats 以 及 
methods ) ， 它 们 提供 了 种 类 繁多 的 默认 函数 和 数据 集 。 其 他 包 可 通过 下 载 后 来 进行 安装 。 这 
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些 包 安装 好 以 后 ， 它 们 必须 被 载 人 到 会 话 中 才能 使 用 。 查 看 哪些 包 已 加 载 并 可 使 用 ， 使 用 命 
令 search0 即 可 。 

2. 包 的 安装 

R 中 有 许多 函数 可 以 用 来 管理 包 ， 例 如 第 一 次 安装 一 个 包 ， 可 使 用 命令 install.packages0。 
不 加 参数 执行 命令 install.packages0 后 ， 将 显示 一 个 CRAN 镜 像 站 点 的 列表 ， 在 连 网 的 情况 下 
选择 其 中 一 个 镜像 站 点 之 后 ,将 看 到 所 有 可 用 包 的 列表 ， 选 择 其 中 的 一 个 包 即 可 进行 下 载 和 
安装 。 如 果 知 道 自己 想 安装 的 包 的 名 称 ， 可 以 直接 将 包 名 作为 参数 提供 给 这 个 函数 。 例 如 ， 
包 gclus 中 提供 了 创建 增强 型 散 点 图 的 函数 ， 可 以 使 用 命令 install.packages("gclus") 来 下 载 和 安装 
它 。 一 个 包 仅 需 安装 一 次 。 但 和 其 他 软件 类 似 ， 包 经 常会 被 其 作者 更 新 ， 使 用 命令 update. 
packages0 可 以 更 新 已 经 安装 的 包 。 要 查看 已 安装 包 的 描述 ， 可 以 使 用 installed.packages0 命 
令 ， 该 命令 可 以 列 出 安装 的 包 ， 以 及 包 的 版 本 号 、 依 赖 关系 等 信息 。 

3. 包 的 载 入 

包 的 安装 是 指 从 某 个 CRAN 镜 像 站 点 下 载 它 并 将 其 放 入 库 中 的 过 程 。 要 在 R 会 话 中 使 用 
它 ， 还 需要 使 用 library0 命 令 载 和 这 个 包 。 例如 ， 要 使 用 gclus 包 ， 执 行 命令 library(gclus) 即 可 。 
当然 ， 在 载 和 一 个 包 之 前 必须 已 经 安装 了 这 个 包 。 在 一 个 会 话 中 ， 包 只 需 载 和 一次。 如 果 需 
要 ， 用 户 可 以 自 定义 启动 环境 以 自动 载 和 会 频繁 使 用 的 那些 包 。 

4. 包 的 使 用 方法 

载 和 一 个 包 之 后 ， 就 可 以 使 用 一 系列 新 的 函数 和 数据 集 了 。 包 中 往往 提供 了 演示 性 的 
小 型 数据 集 和 示例 代码 ， 能 够 让 用 户 尝试 这 些 新 功能 。 帮 助 系统 包含 了 每 个 函数 的 一 个 描述 
( 同时 带 有 示例 ) ， 每 个 数据 集 的 信息 也 被 包括 其 中 。 命 令 help(package="package_name") 可 以 
输出 某 个 包 的 简短 描述 以 及 包 中 的 函数 名 称 和 数据 集 名 称 的 列表 。 使 用 函数 help0 可 以 查看 其 
中 任意 函数 或 数据 集 的 更 多 细节 。 这 些 信息 也 能 以 PDF 帮助 手册 的 形式 从 CRAN 下 载 。 


中 7.2 R 的 数据 操作 


R 作 为 一 款 分 析 统 计 软 件 ， 擅 长 对 数据 进行 分 析 处 理 ， 在 数据 爆炸 的 时 代 显得 尤为 重 
要 。 下 面 ， 介 绍 R 的 数据 结构 以 及 数据 的 输入 方法 。 


7.2.1 数据 结构 


公认 的 经 典 手 册 《R 语 言 经 典 入 门 》 ( R For Beginners ) 对 BR 的 表示 数据 的 对 象 描述 为 ? 
R 的 运行 需要 借助 于 一 些 对 象 ， 一 方面 是 借助 于 对 象 的 内 容 和 名 称 ， 另 一 方面 是 对 象 的 数据 
类 型 即 属性 。 对 象 的 属性 对 于 作用 于 一 个 对 象 的 函数 的 表现 非常 重要 ， 正 是 这 个 属性 为 对 象 
提供 了 所 需要 的 信息 。 长 度 和 类 型 是 所 有 对 象 都 具备 的 两 个 内 在 属性 。 其 中 长 度 指 的 是 对 象 
中 元 素 的 数目 ; 类 型 指 的 是 对 象 中 元 素 的 基本 类 型 ， 包 括 字 符 型 ， 数 值 型 ， 复 数 型 和 逻辑 型 


© http:W/www.docin.com/p-43353783.html 
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四 种 。 除 此 之 外 还 有 其 他 不 能 用 来 表示 数据 的 类 型 ， 如 函数 或 表达 式 ， 其 中 对 象 的 分 别 通过 
函数 length 和 mode 得 到 工作 长 度 和 类 型 了 ~。 例如 执行 下 面 的 命令 ， 并 观察 相应 的 输出 。 
Sl 
> mode (x) 
[1] "numeric" 
> length (x) 
El 
> A <- "Gomphotherium"; compar <- TRUE; z <- 1i 
> mode(A); mode (compar); mode(z) 
[1] "character" 
EE gical 
[1] “complex" 
不 管 数 据 的 类 型 是 哪 一 种 ， 总 是 用 NA ( 不 可 用 ) 来 表示 缺失 数据 。 可 用 指数 形式 来 表示 
很 大 的 数值 : 
> N <- 2.1e23 
>N 
[L211er23 
R 可 以 表示 无 穷 的 数值 ， 如 用 Inf 和 -Inf 表 示 + %， 或 者 用 NaN ( 非 数 字 ) 表示 不 是 数字 的 值 。 
>x <- 5/0 
>x 
[1] Inf 
> exp (x) 
[Ll En 
> exp (-X) 
| 昌国 
六 区 
[1] NaN 
当 输 入 对 象 属性 为 字符 型 的 值 时 须 在 值 的 两 端 加 上 双 引 号 。 如 果 在 值 中 出 现 需要 引用 双 
引号 的 情况 时 ， 在 引用 的 双 引 号 的 前 面 须 加 上 反 斜 杠 (\) ， 这 两 个 合 在 一 起 的 字符 (\" ) 在 
某 些 函数 如 cat 的 输出 显示 或 write.table 写 人 磁盘 函数 的 qmethod 选 项 时 会 按照 特殊 的 方式 进行 
人 处理。 例如 执行 下 述 的 代码 : 
> x <- "Double quotes \" delimitate R's strings." 
Sr 
[1] "Double quotes \" delimitate R's strings." 


> "eat (x) 


@@ http:/blog.csdn.net/yangxudong/article/details/7315923 
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Double quotes " delimitate R's strings. 

用 单 引 号 (' ) 来 界定 变量 是 男 一 种 表示 字符 型 变量 的 方法 ， 此 时 双 引 号 不 需要 用 反 斜 杠 

来 引用 (不 过 引用 单 引号 时 必须 要 用 ! ) 

> x <- 'Double quotes " delimitate R\'s strings." 
>x 

[1] "Double quotes \" delimitate R's strings." 

R 拥 有 许多 用 于 存储 数据 的 对 象 类 型 ， 包 括 向 量 、 数 组 、 标 量 、 和 矩阵 、 数 据 框 和 列表 。 
它们 在 存储 数据 的 类 型 、 创 建 方式 、 结 构 复 杂 度 ， 以 及 用 于 定位 和 访问 其 中 个 别 ` 元 素 的 标记 
等 方面 均 有 所 不 同 。 

表 7.4 给 出 了 表示 数据 的 对 象 的 类 别 概览 。 

表 7.4 ”数据 对 象 的 类 别 概述 


是 否 允 许 同一 个 对 象 中 有 多 种 类 型 ? 


数值 型 、 字 符 型 、 复 数 型 、 诸 辑 型 
数值 型 或 字符 型 


数值 型 、 字 符 型 、 复 数 型 、 逻 辑 型 
数值 型 、 字 符 型 、 复 数 型 、 光 辑 型 


描述 数据 时 ， 对 于 一 个 向 量 ， 有 类 型 和 长 度 就 可 以 了 ,但 是 对 于 其 它 的 对 象 就 没 这 么 简 
单 了 ， 需 要 一 些 由 外 在 的 属性 给 出 的 额外 信息 。 在 这 些 属性 中 dim 表 示 对 象 维 数 ， 如 一 个 2 行 
2 列 的 矩阵 ， 它 的 dim 是 一 对 数值 [2.2]， 长 度 是 4。 而 表 7.4 所 列 的 数据 的 对 象 中 ， 向 量 是 一 个 
变量 ; 数组 是 一 个 k 维 的 数据 表 ; 因子 是 一 个 分 类 变量 ; 而 矩阵 的 维 数 k=2， 是 数组 的 一 个 特 
例 ; 时 间 序 列 数据 包含 一 些 例如 频率 和 时 间 等 的 额外 的 属性 ， 用 “ts” 来 表示 ; 数据 框 必须 
是 等 长 的 ， 但 可 以 是 不 同 的 数据 类 型 ， 它 是 由 一 个 或 几 个 因子 和 (或 ) 向 量 构成 ; 列表 可 以 
包含 任何 类 型 的 对 象 ， 包 括 列表 。 需 要 特别 指出 的 是 ， 数 组 或 矩阵 中 的 所 有 元 素 的 类 型 必须 
是 同一 种 的 ?。 


7.2.2 ”数据 输入 


作为 一 名 数据 分 析 人 员 ， 通 常会 面 对 来 自 多 种 数据 源 和 数据 格式 的 数据 ， 这 时 的 任务 是 
将 这 些 数 据 导入 到 使 用 的 工具 中 ， 然 后 分 析 数 据 ， 并 汇报 分 析 结 果 。R 提 供 了 适用 范围 广泛 
的 数据 导入 工具 。 向 R 中 导入 数据 的 权威 指南 可 在 http://eran.r-project.org/doc/manuals/R-data. 
pdf 下 载 其 中 的 R Data Import/Export 手 册 。 R 可 从 键盘 、 文 本 文件 、Microsoft Excel 和 Access、 流 
行 的 统计 软件 、 特 殊 格式 的 文件 ， 以 及 多 种 关系 型 数据 库 中 导入 数据 ， 如 图 7.2 所 示 。 下 面 将 
对 这 些 数据 输入 方式 进行 介绍 。 


@ http:/blog.csdn.net/yangxudong/article/details/7315923 
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统计 软件 
SAS SPSS Stata 
键盘 
AsCll 
ey Excel 
文本 文件 < 一 
XML 一 a netCFD | 其 他 


Web 抓 取 数 据 2 Se 


QL 4 Access 
| 数据 库 管理 系统 | 
图 7.2 ”可 供 R 导 入 的 数据 源 


1. 使 用 键盘 输入 数据 

也 许 输 入 数据 最 简单 的 方式 就 是 使 用 键盘 了 。R 中 的 函数 edit0 会 自动 调用 一 个 允许 手动 
输入 数据 的 文本 编辑 器 。 具 体 步 又 如 下 : 

(1 ) 创建 一 个 空 数据 框 ( 或 矩阵 ) ， 其 中 变量 名 和 变量 的 模式 需 与 理想 中 的 最 终 数据 

(2 ) 针对 这 个 数据 对 象 调用 文本 编辑 器 ， 输 入 需要 的 数据 ， 并 将 结果 保存 回 此 数据 
对 象 中 。 在 下 例 中 ， 将 创建 一 个 名 为 mydata 的 数据 框 ， 它 含有 三 个 变量 : age ( 数值 型 ) 、 
er (字符 型 ) 和 weight ( 数值 型 ) 。 然 后 将 调用 文本 编辑 器 ， 键 和 数据， 最 后 保存 输入 的 

结果 。 类 似 于 age=numeric(0) 的 赋值 语句 将 创建 一 个 指定 模式 但 不 含 实际 数据 的 变量 。 注 意 ， 

编辑 的 结果 需要 赋值 回 对 象 本 身 。 函 数 edit() 
事实 上 是 在 对 象 的 一 个 副本 上 进行 操作 的 
如 果 不 将 其 赋值 到 一 个 目标 ， 所 有 修改 将 会 
全 部 丢失 。 在 Windows 上 调用 函数 edit0 的 结果 
如 图 7.3 所 示 。 

如 图 7.3 所 示 ， 笔 者 已 经 添加 了 一 些 数 
据 。 单 击 列 的 标题 ， 就 可 以 用 编辑 器 修改 变 
量 名 和 变量 类 型 ( 数值 型 、 字 符 型 ) 。 还 可 
以 通过 单 击 未 使 用 列 的 标题 来 添加 新 的 变 
量 。 编 辑 器 关闭 后 ,结果 会 保存 到 之 前 赋值 图 7.3 ”通过 Windows 上 内 建 的 编辑 器 输入 数据 
的 对 象 中 ( 本 例 中 为 mydata ) 。 再 次 调用 mydata <- edit(mydata)， 就 能 够 编辑 已 经 输入 的 数据 
并 添加 新 的 数据 。 语 句 mydata <- edittmydata) 的 一 种 简捷 的 等 价 写 法 是 fx(mydataj。 这 种 输入 数 
据 的 方式 对 于 小 数据 集 很 有 效 。 对 于 较 大 的 数据 集 ， 用 户 所 期 望 的 也 许 是 笔者 接 下 来 要 介绍 
的 方式 : 从 现 有 的 文本 文件 、Excel 电 子 表格 、 统 计 软 件 或 数据 库 中 导入 数据 。 


2. 从 带 分 隔 符 的 文本 文件 中 导入 数据 
可 以 使 用 read.table0 从 带 分 隔 符 的 文本 文件 中 导入 数据 。 此 函数 可 读 入 一 个 表格 格式 的 文 
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件 并 将 其 保存 为 一 个 数据 框 。 其 语法 如 下 : 
mydataframe<-read.table (file,header=logical value, sep="delimiter","row. 
name=names") 

其 中 ,fe 是 一 个 带 分 隔 符 的 ASCII 文 本 文件 ，header 是 一 个 表明 首 行 是 否 包 含 了 变量 名 的 
逻辑 值 (TRUE 或 FALSE ) ，sep 用 来 指定 分 隔 数 据 的 分 隔 符 ，row.names 是 一 个 可 选 参 数 ， 用 
以 指定 一 个 或 多 个 表示 行 标识 符 的 变量 。 举 个 例子 ,语句 : 
>grades<-read.table("studentgrades.csv",header=TRUE, sep=",",Row. 
name="STUDENTID") 

从 当前 工作 目录 中 读 入 了 一 个 名 为 studentgrades.csv 的 逗号 分 隔 文 件 ， 从 文件 的 第 一 行 取 
得 各 变量 的 名 称 ， 将 变量 STUDENTID 指 定 为 行 标识 符 ， 最 后 将 结果 保存 到 名 为 grades 的 数据 
框 中 。 

请 注意 ,参数 sep 人 允许 导 和 人 那些 使 用 逗号 以 外 的 符号 来 分 隔行 内 数据 的 文件 。 可 以 使 用 
sep="\t" 读 取 以 制 表 符 分 隔 的 文件 。 此 参数 的 默认 值 为 sep=""， 即 表示 分 隔 符 可 为 一 个 或 多 
个 空格 、 制 表 符 、 换 行 符 或 回 车 符 。 在 默认 情况 下 ,字符 型 变量 将 转换 为 因子 。 我 们 并 不 总 
是 希望 程序 这 样 做 ( 例如 处 理 一 个 含有 被 调查 者 评论 的 变量 时 ) 。 有 许多 方法 可 以 禁止 这 种 
转换 行为 。 其 中 包括 设置 选项 stringsAsFactors=FALSE， 这 将 停止 对 所 有 字符 型 变量 的 此 种 转 
换 。 另 一 种 方法 是 使 用 选项 colClasses 为 每 一 列 指定 一 个 类 ， 例 如 logical ( 逻辑 型 ) 、numeric 
(数值 型 ) 、character ( 字符 型 ) 、factor ( 因子 ) 。 

函数 read.table() 还 拥有 许多 微调 数据 导入 方式 的 追加 选项 。 对 该 函数 更 多 的 详细 信息 ， 可 
通过 help(read.table) 来 获得 。 

3. 导入 Excel 文 件 中 的 数据 

读 取 一 个 Excel 文 件 中 数据 的 最 好 方式 ， 就 是 在 Excel 中 将 文件 另存 为 一 个 用 逗号 分 隔 的 
文件 (esv ) ， 并 使 用 前 文 描述 的 方式 将 其 导入 R 中 。 在 Windows 系 统 中 ,用 户 也 可 以 使 用 
RODBC 包 来 访问 Exeel 文 件 。 电 子 表格 文件 的 第 一 行 应 当 包 含 变量 / 列 的 名 称 。 首 先 ， 下 载 并 
安装 RODBC 包 。 执 行 下 面 的 命令 : 
>install .packages ("RODBC") 

之 后 可 以 使 用 以 下 代码 导入 数据 : 
>library (RODBC) 

>channel <- odbcConnect Excel ("myfile.xls") 
>mydataframe <- sqlFetch(channel, "mysheet") 
>odbcclose (channel) 

这 里 的 myfile.xls 是 一 个 Excel 文 件 ，mysheet 是 要 从 这 个 工作 簿 中 读 取 的 工作 表 的 名 称 ， 
channel 是 一 个 由 odbecConnectExcel0 返 回 的 RODBC 连 接 对 象 ，mydataframe 是 返回 的 数据 框 。 
RODBC 也 可 用 于 从 Microsoft Access 导 入 数据 。 更 多 详情 ， 可 使 用 help(RODBC) 来 获得 。 Excel 
2007 使 用 了 一 种 名 为 XLSX 的 文件 格式 ,实质 上 是 多 个 XML 文 件 组 成 的 压缩 包 。xlsx 包 可 以 
用 来 读 取 这 种 格式 的 电子 表格 文件 。 在 第 一 次 使 用 此 包 之 前 请 务必 先 下 载 并 安装 好 。 包 中 
的 函数 read.xlsx0 可 将 XLSX 文 件 中 的 工作 表 导 入 为 一 个 数据 框 。 其 最 简单 的 调用 格式 是 read. 
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xlsx(filen)， 其 中 fle 是 Excel 2007 工 作 短 的 所 在 路 径 ，n 则 为 要 导入 的 工作 表 序 号 。 例 如 ， 执 行 
以 下 代码 : 
>library (xlsx) 
>workbook <- "c:/myworkbook.xlsx" 
>mydataframe <- read.xlsx(workbook, 1) 
该 命令 从 位 于 C 盘 目录 的 工作 短 myworkbook.xlsx 中 导入 了 第 一 个 工作 表 ， 并 将 其 保存 为 一 
个 数据 框 mydataframe。xlsx 包 不 仅仅 可 以 导入 数据 表 ， 它 还 能 够 创建 和 操作 XLSX 文 件 。 
在 Web 数 据 抓 取 ( Webscraping ) 的 过 程 中 ,用 户 从 互联 网 上 提取 风 入 在 网 页 中 的 信息 ， 
并 将 其 保存 为 可 在 R 中 做 进一步 的 分 析 的 数据 结构 。 一 种 途径 是 使 用 函数 readLines() 下 载 网 
页 ， 然 后 使 用 如 gsub() 和 grep(0) 这 一 类 的 函数 处 理 它 。 对 于 结构 复杂 的 网 页 ， 可 以 使 用 RCurl 
包 和 XML 包 来 提取 其 中 想 要 的 信息 。 要 了 解 更 多 的 信息 和 示例 ， 可 在 网 站 Programming with 
R(www.programmingr.com) 上 找到 并 阅读 “Webscraping using readLines and RCurl” 一 文 。 


4. 导入 SPSS 数 据 


SPSS 数 据 集 可 以 通过 foreign 包 中 的 函数 read.spss0) 导 入 到 R 中 ， 也 可 以 使 用 Hmisc 包 中 的 
spss.get() 隐 数 。 函 数 spss.get() 是 对 read.spss0 的 一 个 封装 ， 它 可 以 为 用 户 自动 设置 后 者 的 许多 参 
数 ， 让 整个 转换 过 程 更 加 简单 一 致 ， 最 后 得 到 数据 分 析 人 员 所 期 望 的 结果 。 

首先 ， 下 载 并 安装 Hmisc 包 (foreign 包 已 被 默认 安装 ) : 

>instal1.packages ("Hmisc") 
然后 使 用 以 下 代码 导入 数据 : 
>library (Hmisc) 
>mydataframe <- spss.get ("mydata.sav",use.value.labels=TRUE) 

这 段 代 码 中 ， mydata.sav 是 要 导入 的 SPSS 数 据 文 件 ，use.value.labels=TRUE 表 示 让 函数 将 
带 有 值 标签 的 变量 导入 R 中 水 平 对 应 相同 的 因子 ，mydataframe 是 导入 后 的 R 数 据 框 。 

5. 导入 SAS 数 据 


R 中 设计 了 若干 用 来 导入 SAS 数 据 集 的 函数 ， 包 括 foreign 包 中 的 read.ssd0 和 Hmisc 包 中 的 
sas.get()。 但 如 果 使 用 的 是 SAS 的 较 新 版 本 ( SAS 9.1 或 更 高 ) 时 ， 这 些 函 数 就 不 能 正常 工作 
了 ， 因 为 R 尚 未 跟 进 SAS 对 文件 结构 的 改动 。 这 里 笔者 推荐 两 种 解决 方案 。 
可 以 在 SAS 中 使 用 PROC EXPORT 将 SAS 数 据 集 保存 为 一 个 逗号 分 隔 的 文本 文件 ， 然 后 将 
导出 的 文件 读 取 到 R 中 。 下 面 是 一 个 示例 : 
SAS 程 序 : 
proc export data=mydata 
outfile="mydata.csv" 
dbms=csv; 

run; 
R 程 序 : 


>mydata <- read.table ("mydata.csv", header=TURE, sep=",") 
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另外 ， 一 款 名 为 StayTransfer 的 商业 软件 可 以 完好 地 将 SAS 数 据 集 ( 包括 任何 已 知 的 变量 
格式 ) 保存 为 R 数 据 框 。 


6. 通过 Stat/Transfer 导 入 数据 


在 结束 数据 导入 的 讨论 之 前 ， 值 得 提 到 【2 


Tarsie Venables | Opserasoms Opeons | Run Program Log |About 


一 款 能 让 上 述 任务 的 难度 显著 降低 的 商业 软 
件 。Stat/Transfer ( www.stattransfer.com ) 是 一 
款 可 在 34 种 数据 格式 之 间作 转换 的 独立 应 用 程 
序 ， 其 中 包括 R 中 的 数据 格式 ( 见 图 7.4 ) 。 

此 软件 拥有 Windows 、Mac 和 Unix 版 本 ， 
并 且 支 持 目前 讨论 过 的 各 种 统计 软件 的 最 
新 版 本 ， 也 可 通过 0DBC 访 问 如 Oracle、 
Sybase 、Informix 和 DB2 一 类 的 数据 库 管理 
系统 。 


图 7.4 Windows 上 Stat/Transfer 的 主 对 话 框 


有 7.3 ”绘图 功能 简介 


R 的 绘图 功能 非常 多 样 9， 因 为 每 个 绘图 函数 都 具有 大 量 的 选项 使 图 形 绘制 的 十 分 灵活 多 
变 ， 所 以 在 这 里 不 可 能 详细 说 明 R 在 绘图 方面 的 所 有 功能 。 若 想 详细 了 解 ， 用 户 可 以 输入 : 
demo(graphics) 或 者 demo(persp) 来 获得 详细 的 信息 。 绘图 函数 与 本 文 前 面 描述 的 工作 方式 大 为 
不 同 ， 绘 图 函数 会 将 结果 直接 输出 到 一 个 “绘图 设备 ”上 ， 即 一 个 绘图 的 窗口 或 是 一 个 文 
件 ， 而 不 是 把 结果 赋 给 一 个 对 象 。 绘 图 函数 分 为 低级 绘图 函数 ( low-level plotting functions ) 
和 高 级 绘图 函数 ( high-level plotting functions ) 。 低 级 绘图 函数 是 在 现存 的 图 形 基础 上 添 
加 一 些 元 素 ， 而 高 级 绘图 函数 则 是 直接 创建 一 个 新 的 图 形 。 此 外 ， 绘 图 参数 ( graphical 
parameters ) 可 以 控制 绘图 选项 ， 可 以 用 函数 par 修 改 或 者 使 用 缺 省 值 。 接 下 来 具体 介绍 如 何 
管理 绘图 ， 然 后 详细 说 明 绘 图 函数 和 绘图 参数 及 基本 图 形 的 绘制 。 


7.3.1 管理 绘图 


首先 要 打开 多 个 绘图 设备 。 绘 图 设备 可 以 用 适当 的 函数 打开 。 如 果 没 有 打开 绘图 设备 ， 
绘图 函数 开始 执行 的 话 ，R 将 打开 一 个 绘图 窗口 来 展示 绘制 的 图 形 。 操 作 系 统 决定 了 使 用 哪 
种 绘图 设备 ， 在 Windows 系 统 下 仍 称 为 windows， 在 Unix 或 Linux 系 统 下 则 称 为 x11。 因 为 命令 
x110 可 以 作为 windows0 的 别名 ， 所 以 在 Windows 系 统 下 该 命令 仍然 有 效 ， 无 论 使 用 的 是 哪 一 种 
操作 系统 ， 都 可 以 用 命令 x11( 来 打开 一 个 绘图 窗口 。 可 以 用 函数 postscript0 、pdf0 、png(0) 等 打 
开 一 个 文件 作为 绘图 设备 ， 可 以 用 ?device 命 令 来 查看 可 用 的 绘图 设备 列表 。 最 后 打开 的 设备 
将 成 为 当前 的 绘图 设备 ， 在 该 设备 上 显示 接 下 来 的 所 有 的 图 形 。 如 果 想 要 显示 打开 的 列表 可 


© http:W/www.docin.com/p-43353783.html 
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以 用 郴 数 dev.list() 忆 

> EU LL PAaE(Y 
> dev.list() 

X11 X11 pdf 

234 

上 面 的 数字 是 设备 的 编号 ， 必 须 使 用 这 些 编号 才能 改变 当前 设备 ， 若 想 要 了 解 当前 设 

备 ， 可 输入 下 面 的 命令 : 
> dev.cur() 
pdf 
4 
若 要 改变 当前 的 设备 ， 可 输入 : 
> dev.set (3) 
X11 
3 

关闭 一 个 设备 可 以 用 函数 dev.off()。 默 认为 关闭 当前 设备 ， 否 则 表示 关闭 有 自 变量 指定 编 

号 的 设备 。R 然 后 显示 新 的 当前 设备 编号 。 
> dev.off (2) 

XI 

> dev.off() 

pdf 

4 

Windows 版 本 的 R， 有 两 个 特殊 的 功能 ， 函 数 win.metafile 可 以 打开 Windows Meta-file 设 
备 ，\History 菜 单 会 出 现在 选 定 绘 图 窗口 ， 这 个 菜单 中 的 功能 可 以 帮助 用 户 记录 一 个 会 i 
中 所 作 的 所 有 图 形 ( 注意 : 记录 系统 在 默认 状态 下 是 关闭 的 ， 用户 可 以 单 击 这 个 菜单 下 的 
\Recording 打 开 它 ) 。 

若 要 对 图 形 进行 分 割 ， 用 户 可 以 用 函数 split.screen 分 割 当 前 的 绘图 设备 ， 例 如 : 
> split.screen(c(1, 2)) 

可 将 设备 划分 为 两 部 分 ， 用 screen(1) 或 者 scereen(2) 进 行 选择 。 若 要 删除 最 后 绘制 的 图 形 可 
以 使 用 erase.screen0 命 令 。 而 split.sereen0 可 以 作出 复杂 的 布局 ， 也 可 以 划分 设备 的 一 部 分 。 使 
用 这 些 函 数 需 要 局 限于 图 形式 探索 性 数据 分 析 之 类 的 问题 ， 和 其 他 的 函数 不 兼容 ( 如 layout0 
或 coplot0 ) ， 不 能 用 于 多 个 绘图 设备 。 函 数 layout 可 用 来 将 当前 的 图 形 窗 口 分 割 成 多 个 部 分 ， 
然后 图 形 就 可 以 一 次 性 的 显示 在 分 割 后 的 各 部 分 中 。 它 主要 的 自 变量 是 一 个 矩阵 ， 其 中 元 
素 指 示 子 窗口 ( \sub-windows'" ) 的 编号 ， 都 是 整数 值 。 例 如 ， 可 以 把 设备 划分 为 相等 的 4 个 
部 分 : 
> layout (matrix(1:4，2，2)) 


为 更 好 的 显现 设备 是 如 何 划 分 的 ， 也 可 以 先 产 生 这 个 矩阵 : 
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> mat <- matrix(1:4，2，2) 


> mat 

9 ll pl 
[iy 13 

| 

> layout (mat) 


还 可 以 使 用 函数 layout.show 看 到 创建 的 分 割 ， 其 自 


变 


量 是 子 窗口 的 个 数 。 在 图 7.5 所 示 的 


例子 中 子 窗 口 的 个 数 是 4， 执 行 命令 : 


> layout.show (4) 


图 7.5 ”分割 后 的 子 窗口 


7.3.2 ”绘图 函数 
表 7.5 是 R 中 高 级 绘图 函数 的 概括 ?。 


boxplot(x) 


表 7.5 ”R 中 高 级 绘图 函数 


盒 形 图 ("box-and-whiskers" ) 
在 一 条 线段 上 画 出 x 的 值 ， 当 样本 量 较 小 时 可 蔡 代 盒 形 图 
以 序号 为 横 坐 标 ， 以 x 的 元 素 值 为 纵 坐标 绘图 


plot(x.y) 


x (在 x- 轴 上 ) 与 y ( 在 y- 轴 上 ) 的 二 元 作 图 


sunflowerplot(x,y) 


同上 , 但 是 将 相似 坐标 的 点 作为 花 人 条， 而 花瓣 数目 则 为 点 的 个 数 


matplot(x,y) 


二 元 图 ， 其 中 x 的 第 一 列 对 应 y 的 第 一 列 ，x 的 第 二 列 对 应 y 的 第 二 列 ， 依 次 类 推 


coplol(x ~yj) 


x 与 y 的 二 元 图 关于 z 的 每 个 数值 (或 数值 区 间 ) 绘制 


interaction.plot(f1,{2,y) 


如 果 f 代 和 f2 是 因子 ， 作 y 的 均值 图 ， 以 f1 的 不 同 值 作为 x 轴 ， 而 f2 的 不 同 值 对 应 不 
同 曲线 ， 可 以 用 选项 fun 指 定 y 的 其 他 的 统计 量 ( 缺 省 计算 均值 ，fun=mean ) 


fourfoldplot(x) 


用 四 个 四 分 之 一 圆 显示 2 x 2 列 联 表情 况 。 注 意 : x 必须 是 dim=e(2,2,k) 的 数组 ,或 
者 是 dim=e(2.2) 的 矩阵 ， 如 果 k=1 


dotchart(x) 


如 果 x 是 数据 框 ， 作 Cleveland 点 图 ( 逐 行 逐 列 累加 图 ) 


assocplot(x) 


Cohen 一 Friendly 图 ， 显 示 在 二 维 列 联 表 中 行 、 列 变量 偏离 独立 性 的 程度 


termplot(mod.obj) 


回归 模型 ( mod.obj ) 的 ( 偏 ) 影响 图 


pairs(x) 


如 果 x 是 矩阵 或 是 数据 框 ， 作 x 的 各 列 之 间 的 二 元 图 


@® http://www.docin.com/p-43353783.html 


第 7 章 ”数据 分 析 语言 R 
( 续 表 ) 
函数 名 说 明 

lta 如 果 x 是 类 ts 的 对 象 ， 作 x 的 时 间 序 列 曲线 ， 其 中 x 可 以 是 多 元 的 ， 但 是 序列 的 频 
率 和 时 间 必 须 相同 

ts.plot(x) 同上 ,不 过 如 果 x 是 多 元 的 ， 序 列 的 频率 必须 相同 ， 时 间 可 不 同 

hist(x) x 的 频率 直方 图 

barplot(x) x 的 值 的 条 形 图 

qqnorm(x) 正 态 分 位 数 ， 分 位 数 图 

qqplot(x,y) y 对 x 的 分 位 数 ， 分 位 数 图 

oddity 等 高 线 图 ( 在 这 里 z 表 示 距 x-y 平 面 的 高 度 ) x 和 y 必 须 为 向 量 ，z 必 须 为 

=cllength(x)length(y))， 其 中 x 和 y 可 以 省 略 

filled.contour(x,y,z) 同上 ， 等 高 线 之 间 的 区 域 是 彩色 的 ， 并 且 绘 制 的 图 例 是 彩色 对 应 值 的 

image(x,y,z) 同上 , 但 是 可 用 不 同色 彩 表示 实际 数据 大 小 

persp(x,y,2) 同上 ,但 为 透视 图 

stars(x) 如 果 x 是 数据 框 或 矩阵 ， 则 用 星 形 和 线段 画 出 

mosaicplot(x) 列 联 表 的 对 数 线性 回归 残 差 的 马赛 克 图 

en | 由 x 和 y 给 定 坐标 画 符号 ， 如 圆 ， 正 方形 ， 长 方形 ， 星 ， 温 度 计 式 或 者 盒 形 图 ， 符 
号 的 类 型 、 大 小 、 颜 色 等 由 另外 的 变量 指定 


在 R 里 某 些 绘图 函数 的 部 分 选项 是 一 样 的 ， 用 户 可 以 在 线 查 询 每 个 函数 的 功能 选项 2。 下 

面 给 出 了 一 些 主要 的 共同 选项 及 其 缺 省 值 : 

type="p" 指 定 图 形 的 类 型 。"p": 点 ; 岂 ': 线 ; "b": 点 连 线 ; "o": 同上 , 但 是 线 在 点 上 ;"h": 
垂直 线 ; "S": 阶梯 式 ， 和 直线 底 江 内 显示 数据 ; "s": 同上 ， 不 过 是 在 垂直 线 项 端 显示 数据 。 

xlab=,ylab= 坐 标 轴 的 标签 ， 必 须 是 字符 型 值 。 

main= 主 标题 ， 必 须 是 字符 型 值 。 

sub= 副 标题 ， 用 小 字体 。 

xlim=,ylim= 指 定 轴 的 上 下 限 ， 例 如 xlim=c(1.10) 或 者 xlim=range(x)。 

add=FALSE 如 果 是 TRUE， 如 果 有 前 一 个 图 ， 则 三 加 图 形 到 前 一 个 图 上 。 

axes=TRUE 如 果 是 FALSE， 不 绘制 轴 与 边框 。 

R 里 面 有 一 套 绘图 函数 是 作用 于 现存 的 图 形 上 的 ， 称 为 低级 作 图 命令 (low-level plotting 
commands ) 。 表 7.6 显 示 了 一 些 主要 的 低级 绘图 命令 。 

表 7.6 ”低级 作 图 命令 


命令 说 明 
points(x,y) 添加 点 ( 可 以 使 用 选项 type= ) 
lines(x,y) | 添加 线 , 同上 
segments(x0y0x1y1) | 从 (x0y0) 各 点 到 (xlyl ) 各 点 画 线 自 
arrows 同上 ， 但 为 线 添 加 箭头 ， 如 果 code=1 则 在 (xl:yl ) 处 画 箭头 ， 如 果 code=2 则 在 各 
(x0,y0,x1,y1,angle=30, ( x0,y0 ) 处 画 箭 头 ， 如 果 code=3 则 在 两 端 都 画 箭头 ; angle 用 于 控制 箭头 轴 到 箭 
code=2) 头 边 的 角度 
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( 续 表 ) 
命令 说 明 
在 (xy ) 处 添加 用 labels 指 定 的 文字 ， 典 型 的 用 法 是 : plot(x,y,type="n");text(x,y, 


text(x,y,labels,…) 


names) 


mtext 
(text,side=3,line=0,…) 


text 指 定 的 文字 添加 在 边 空 ，side 指 定 添加 到 哪 一 边 ( 参照 下 面 的 axis0 ) ; 而 line 
指定 添加 的 文字 距离 绘图 区 域 的 行 数 


axis(side,vecl) 


画 坐 标 轴 ，side=1 时 画 在 下 边 ，side=2 时 画 在 左边 ，side=3 时 画 在 上 边 ，side=4 时 
画 在 右边 。 可 以 选择 参数 at 指定 画 刻 度 线 的 位 置 坐标 


locator(n,type="n",*…) 


在 用 户 用 鼠标 在 图 上 单 击 n 次 后 返回 n 次 点 击 的 坐标 ( x:y ) ; 并 可 以 在 非 缺 省 情 
况 下 单 击 处 绘制 符号 (type="p" 时 ) 或 连 线 (type="l" 时 ) 


abline(a,b) 绘制 斜率 为 b> 和 截 距 为 8 的 直线 
abline(v=x) 画 垂直 线 于 横 坐 标 x 处 
abline(h=y) 画 水 平 线 于 纵 坐 标 y 处 


rect(xl,yl,x2.y2) 
title0) 

box(0) 

polygon(x,y) 
abline(lm.obj) 
legend(x,y,legend) 
rug(x) 


绘制 长 方形 ，( xl,y1 ) 是 左下 角 ， (x2,y2 ) 是 右上 角 
添加 标题 或 副标题 

加 边框 在 当前 的 图 上 

绘制 多 边 形 ， 连 接 各 x,y 坐 标 确定 的 点 

夯 回 归 线 ， 由 lm.obj 确 定 的 (参照 第 五 章 ) 


用 短线 在 x- 轴 上 夯 出 x 数 据 的 位 置 


注意 ， 函 数 expression 可 以 把 自 变量 转换 为 数学 公式 ， 函 数 text(x,y'expression(…)) 可 以 在 一 
个 图 形 上 加 上 数学 公式 。 例 如 ， 
> text (x,y,expression (p==over (1, 1+e^- (betaxx+alpha) ) ) ) 


在 图 中 相应 坐标 点 (x:y ) 处 显示 下 面 的 方程 : 


| 


1+te-(BX+0) (7-1) 


Pp 


可 以 使 用 函数 substitute 和 as.expression， 在 表达 式 中 来 代入 某 个 变量 的 值 ， 如 ， 为 了 代入 
之 前 计算 并 储存 在 对 象 Rsquared 中 的 R 的 值 ， 可 以 : 


> text (x,y,as.expression (substitute (R^2==r, list (r=Rsquared) ))) 


则 在 图 中 相应 4 
R=0.9856298 


若 要 求 只 显示 3 


标点 (x;y ) 处 会 显示 : 


位 小 数 ， 则 可 以 将 代码 修改 : 


> text (x,y,as.expression (substitute (R^2==r,+ list (r=round (Rsquared, 3) )))) 
则 显示 : R=0.986 


7.3.3 ”绘图 参数 


除了 低级 作 图 命 


命令 之 外 ， 还 可 以 使 用 绘图 参数 来 改变 图 形 。 绘 图 参数 ”( 不 是 所 有 参 


数 ) 可 以 作为 图 形 函 数 的 选项 ， 为 了 永久 改变 绘图 参数 也 可 以 使 用 函数 par， 也 就 是 说 可 以 按 
照 par 指 定 的 参数 来 绘制 后 来 的 图 形 。 例 如 : 
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>par (bg="yellow") 

上 面 的 命令 会 将 以 后 的 图 形 的 绘制 背景 都 设置 为 黄色 。 

绘图 参数 有 73 个 ， 其 中 一 些 功能 非常 相似 。 这 些 参数 详细 的 列表 可 以 使 用 命令 ?par 来 获得 。 

下 面 以 一 个 实例 详细 讲解 绘图 命令 的 使 用 。 这 是 一 个 简单 的 10 对 随机 值 的 二 维 图 形 的 例 
子 。 用 以 下 命令 生成 这 些 值 : 
> X<- rnorm(10) 
> Y <- rnorm(10) 

可 以 用 plot0 来 产生 所 需 绘制 的 图 ， 命 令 为 : 
> plot (x, y) 

在 当前 的 绘图 设备 上 将 会 呈现 所 绘制 的 图 形 ， 结 果 见 图 7.6。R 能 用 “智能 ”的 方法 在 默 
认 情 况 下 绘制 图 形 ， 能 自动 计算 坐标 轴 上 的 标记 的 位 置 ， 刻 度 摆 放 等 ， 以 帮助 更 好 地 理解 图 
形 。 此 外 ,绘图 的 方法 仍然 可 以 改变 ， 例 如 ， 做 一 些 个 性 化 的 调整 ， 或 满足 一 些 刊物 的 要 
求 。 其 中 ,， 用 选项 值 代替 缺 省 值 来 修改 图 形 绘制 是 最 简单 的 方式 。 由 此 ， 在 上 述 那个 例子 
中 ， 可 以 用 以 下 方式 来 改变 图 形 : 
>plot (x, y, xlab="Ten random values", ylab="Ten other values", 
xlim=c(-2,2),ylim=c(-2,2), pch=22, col="red", 
bg="yellow", bty="1", tcl=0.4, 
main="How to customize a plot with R", las=1, cex=1.5) 

结果 见 图 7.7 所 示 ， 命 令 中 xlab 和 ylab 默 认 情 况 下 是 变量 的 名 字 ， 用 于 对 坐标 轴 的 标签 进 
行 改变 ; xlim 和 ylim 用 于 规定 两 个 坐标 轴 的 范围 ; 绘图 参数 pech 在 这 里 用 作 一 个 选项 ，pch=22 
表示 正方 形 ， 由 col 和 bg 指定 其 轮廓 颜色 和 背景 色 ; bty、tcl、las 和 cex 的 作用 在 图 形 参 数 表 中 
有 说 明 ; 最 后 ， 选 项 main 用 于 标题 的 添加 。 此 外 ， 低 级 作 图 命令 和 绘图 参数 可 以 帮助 用 户 进 
一 步 改 善 图 形 ， 但 是 需要 注意 的 是 ， 有 一 些 绘图 参数 不 允许 作为 plot 这 样 的 函数 的 自 变量 ， 此 
时 可 以 通过 输入 多 行 命令 ， 用 par( 来 修改 这 些 参数 9 。 


How to customize a plot with R 
Wa 2 下 
Ss 
DO 
aj° s'il 到 
Ss 3 
本 
> 加 四 
?”o。 站 0 上 
只 写 日 日 
了 o § 日 天 
o el 日 9 
o & 日 
号 冯 
T 
© 了 2 1 1 1 1 
-05 00 0.5 10 2 二 1 四 
x Ten random values 
图 7.6 ”没有 用 任何 选项 的 函数 plot 图 7.7 ”用 于 选项 的 函数 plot 
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7.3.4 基本 图 形 

1. 条 形 图 

条 形 图 通过 垂直 的 或 水 平 的 条 形 展示 了 类 别 型 变量 的 分 布 ( 频数 ) 。 函 数 barplot(0 的 最 简 
单 用 法 是 : 
barplit (height) 

其 中 的 height 是 一 个 向 量 或 一 个 矩阵 。 

在 接 下 来 的 示例 中 ， 将 绘制 一 项 探索 类 风湿 性 关节 炎 新 疗法 研究 的 结果 。 数 据 已 包含 在 
随 ved 包 分 发 的 Arthritis 数 据 框 中 。 由 于 ved 包 并 没 用 包括 在 R 的 默认 安装 中 ,请 确保 在 第 一 次 
使 用 之 前 先 下 载 并 安装 它 (install. packages("ved"))。 选 项 xlab 和 ylab 则 会 分 别 添加 x 轴 和 y 轴 标签 。 
在 本 例 的 关节 炎 研 究 中 ， 变 量 Improved 记 录 了 对 每 位 接受 了 安奈 剂 或 药物 治疗 的 病人 的 治疗 


结果 。 这 里 我 们 看 到 ，28 位 病人 有 了 明显 改善 ，14 人 有 部 分 改善 ， 而 42 人 没有 改善 。 
> library (vcd) 


> counts <- table (Arthritis$Improved) 
> counts 
None Some Marked 
42 14 28 
图 7.8 是 使 用 垂直 条 形 来 绘制 变量 counts 的 结果 ， 代 码 如 下 : 
>barplot (counts, main = "Stacked Bar Plot", xlab = "Treatment", 
ylab = "Frequency", col = c("red", "yellow", "green"), 


legend = rownames (counts)) 


Simple Bar Plot 
40 一 
0 
Fy 
二 20 
BS 
巴 
] | | 
本 
None Some Marked 
Improvement 


图 7.8 ”简单 的 条 形 图 
2. 直方 图 


直方 图 通过 在 X 轴 上 将 值 域 分 割 为 一 定数 量 的 组 ， 在 Y 轴 上 显示 相应 值 的 频数 ， 展 示 连 续 
型 变量 的 分 布 。 可 以 使 用 如 下 函数 创建 直方 图 : 
hist (x) 
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其 中 的 x 是 一 个 由 数据 值 组 成 的 数值 向 量 。 参 数 freq=FALSE 表 示 根 据 概率 密度 而 不 是 频数 
绘制 图 形 。 参 数 breaks 用 于 控制 组 的 数量 。 在 定义 直方 图 中 的 单元 时 ， 默 认 将 生成 等 距 切 分 。 
制作 图 7.9 所 示 的 简单 直方 的 代码 如 下 : 
> par (mfrow = c(2, 2)) 
> hist (mtcarsSmpg) 
图 7.11 所 示 的 为 添加 正 态 密 度 曲 线 和 外 框 的 示例 ， 生 成 7.10 代 码 如 下 : 
> x <- mtcars$mpg 
> h <- hist(x, breaks = 12, col = "red", 
xlab = "Miles Per Gallon"， 
main = "Histogram with normal curve and box") 
> xfit <- seq(min(x), max(x), length = 40) 
> yfit <- dnorm(xfit, mean = mean(x), sd = sd(x)) 
> yfit <- yfit * diff(h$mids[1:2]) * length (x) 
> lines (xfit, yfit, col = "blue", lwd = 2) 


> box() 
Histogram with normal curve and box 
Histogram of mtcars$mpg 法 本 
12 6 
由] 
i 3 
> EE 
上 4 2] 
2 上 村 | 
9 0 T T T T 
10 中 20 25 0 35 10 15 20 25 30 
mtcars$mpg Miles Per Callon 
图 7.9 简单 直方 图 图 7.10 ”添加 正 态 密度 曲线 和 外 框 的 直方 图 
3. 饼 图 


饼 图 可 由 pie(x,labels) 函 数 创建 ， 其 中 x 是 一 个 非 负 数值 向 量 ， 表 示 每 个 扇形 的 面积 ， 而 
labels 则 表示 各 扇形 标签 的 字符 型 向 量 。 制 作 图 7. 11 的 代码 如 下 。 
将 四 幅 图 形 组 合 为 一 幅 ， 并 输入 数据 : 
> par (mfrow = c(2, 2)) 
> slices <- c(10, 12, 4, 16, 8) 
> lbls <- c("US", "UK", "Australia", "Germany", "France") 
画 一 个 简单 的 饼 图 : 
> piel(slices, labels = lbls, main = "Simple Pie Chart") 
将 样本 数 转换 为 比例 值 ， 并 将 这 项 信息 添加 到 了 各 扇形 的 标签 上 : 


>pct <- round(slices/sum(slices) * 100) 
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Me 


1bls2 <= paste(libls, ™" "; pet, "S$", Sep = "") 


Vv 


piel(slices, labels = lbls2, col = rainbow (length (lbls) )， 
main = "Pie Chart with Percentages") 


如 何 从 表格 创建 饼 图 : 


> mytable <- table (state.region) 
> lbls <- paste (names (mytable), "\n", mytable, sep = "") 
> pie (mytable, labels lbls, 
+ main = "Pie Chart from a Table\n (with sample sizes)") 
Simple Pie Chart Pie Chart with Percentages 
U UK 24: 
US US 20% 
Australia Australia 8% 
rance rance 16% 
Germany Germany 32 
Pie Chartfrom a Table 
3D Fie Chart (with sample sizes) 
South 
U Northeast 
nr 
nce el est 
Germany 可 四 


图 7.11 饼 图 示例 
4. 散 点 图 


R 中 创建 散 点 图 的 基础 函数 是 plot(x, y)， 其 中 ，x 和 y 是 数值 型 向 量 ， 代 表 着 图 形 中 的 x， 
y) 点 。 

加 载 mtears 数 据 框 ， 创 建 了 一 幅 基本 的 散 点 图 ， 图 形 的 符号 是 实心 圆 。 与 预期 结果 相 
同 ， 随 着 车 重 的 增加 ， 每 加 仑 英里 数 减少 ， 虽 然 它 们 不 是 完美 的 线性 关系 。abline0 函 数 用 来 
添加 最 佳 拟 合 的 线性 直线 ， 而 lowess(0) 函 数 则 用 来 添加 一 条 平滑 曲线 。 该 平滑 曲线 拟 合 是 一 种 
基于 局 部 加 权 多 项 式 回归 的 非 参 数 方法 。 制 作 图 7.12 所 用 的 代码 如 下 : 


> attach (mtcars) 


> plot (wt, mpg, 


主 main="Basic Scatterplot of MPG vs. Weight", 
只 xlab="Car Weight (lbs/1000)", 
主 ylab="Miles Per Gallon ", pch=19) 


> abline (lm(mpg ~ wt), col="red", lwd=2, lty=1) 
> lines (lowess (wt, mpg), col="blue", lwd=2, lty=2) 


Miles Per Callon 


5. 箱 线 图 
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Basic Scatterplot of MPG vs. Weight 


Car Weight (lbs/1000 ) 
图 7.12 ”添加 了 线性 拟 合 直线 和 lowess 拟 合 曲线 


箱 线 图 ( 又 称 盒 形 图 ) 通过 绘制 连续 型 变量 的 五 数 情况 ， 通 过 以 下 代码 得 到 图 7.13 所 示 


的 结果 : 


Miles Per Gallon 


Car Milage Data 
a | ! 
cD 
ww -| 
CN 
忆 了 
人 -一 一 
。 三 二 
= [3 
T 
8 


Number of Cylinders 
图 7.13 ” 箱 线 图 示例 
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> boxplot (mpg ~ cyl, data = mtcars, 
main = "Car Milage Data", 
xlab = "Number of Cylinders", 
ylab = "Miles Per Gallon") 


7.4 R 的 初级 数据 分 析 


前 面 对 R 的 绘图 功能 进行 了 介绍 ， 但 是 R 最 厉害 的 是 统计 功能 ， 因 此 本 节 与 下 一 节 分 别 从 
初级 数据 分 析 和 高 级 数据 分 析 对 R 的 统计 分 析 功 能 进行 粗略 的 介绍 。 

一 些 基 本 的 统计 分 析 函 数 可 以 从 包 stats 中 获得 ， 例 如 ， 包 括 方差 分 析 、 广 义 线性 模型 
和 最 小 二 乘法 回归 的 线性 模型 、 非 线性 最 小 二 乘法 、 多 元 分 析 、 经 典 的 假设 检验 、 汇 总 统 
计 、 时 间 序 列 分 析 、 层 次 聚 类 和 统计 分 布 。 上 述 统计 方法 以 外 的 统计 方法 还 可 以 从 其 他 R 
包 中 获得 。 与 基本 R 安 装 同时 发 布 的 统计 包 称 为 推荐 包 ， 称 其 他 包 为 捐献 包 并 且 用 户 需要 
自己 安装 。 下 面 介绍 在 所 有 统计 分 析 中 非常 有 用 的 两 个 概念 : 公式 (formulae ) 和 泛 型 函数 
( genericfunctions ) 2 

1. 公式 

因为 几乎 所 有 函数 的 符号 都 一 样 ( 基本 上 趋同 ， 也 有 例外 ) ， 所 以 公式 在 R 统 计 分 析 里 
非常 重要 ， 是 关键 元 素 。Y ~ model 是 公式 的 典型 形式 ， 其 中 model 要 为 其 中 一 些 项 估计 参数 ， 
是 一 些 元 素 项 的 集合 ， 这 些 元 素 项 被 由 有 特殊 涵义 的 运算 符 连 接 ， 而 y 是 响应 变量 。 


ab a 和 b 的 交互 效应 

at+b a 和 b 的 相 加 效应 

as 相 加 和 交互 效应 ( 等 价 于 a+b+ab ) 

-b 去 掉 因 子 b 的 影响 ， 如 :( a+b+c ) 22-a:b 等 价 于 a+b+c+a:c+b:c 

1 y~ 1 拟 合 一 个 没有 因子 影响 的 模型 ( 仅仅 是 截 距 ) 

-1 y~x-1 表 示 通 过 原点 的 线性 回归 ( 等 价 于 y ~ x+0 或 者 0+y ~x ) 

n 包含 所 有 的 直到 n 阶 的 交互 作用 ， 即 ( atb+e ) "2 等 价 于 a+b+c+a:b+a:c+b:c 
poly(a,n) ”a 的 n 价 多 项 式 

X 如 X 是 一 个 和 矩阵， 这 将 反映 各 列 的 相 加 效应 ， 即 X[,1]+X[,2]+.…+X[,ncol(X)]; 还 


可 以 通过 索引 向 量 选择 特定 列 进行 分 析 ( 如 X[,2:4] ) 

b%in9%a ”bb 和 a 的 柑 套 分 类 设计 ( 等 价 于 ata:b， 或 者 a/b ) 

offset(.…) 在 向 模型 中 增加 一 个 影响 因子 但 不 估计 任何 参数 ( 如 ，offset(3*x) ) 

我 们 可 以 看 出 ， 在 R 公 式 里 面 采用 的 运算 符 和 表达 式 里 面 使 用 的 运算 符 含 义 不 尽 相同 。 
例如 ， 公 式 y ~x+x 表 示 模 型 y=Bixy+Bxy+a， 而 不 是 ( 如 果 + 采 用 它 常规 的 含义 ) y=p (mi+z) 
+4。 我们 可 以 使 用 函数 二 公式 y ~ Is+ 区 表示 模型 ?=plxai+ x)+a 以 便 可 以 在 公式 中 使 用 常规 的 
运算 符 。 相 似 的 ， 我 们 可 以 使 用 公式 y ~ poly(x,2) ( 而 非 y ~x+x? ) 来 定义 模型 y=Bix+Bx*+a。 但 
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是 ,我 们 也 可 以 在 公式 中 包含 一 些 函 数 以 便 对 变量 进行 一 定 的 转换 。 对 于 方差 分 析 ，aov0 定 
义 随机 效应 时 用 了 一 个 特别 的 语法 规则 。 例 如 ，y ~ atError(b) 可 以 对 固定 项 a 和 随机 项 b 的 相 加 

2. 泛 型 函数 

泛 型 ( generic ) 9 就 是 用 来 解析 结果 的 ， 对 特定 的 类 对 象 有 特定 的 行为 的 函数 。R 函 数 将 
输入 对 象 的 属性 作为 输入 参数 ， 这 一 点 不 同 于 很 多 其 他 的 统计 编程 语言 。 其 中 最 应 该 关注 的 
一 个 属性 则 是 类 。R 统 计 函 数 通 常 返 回 的 对 象 的 类 名 与 函数 名 相同 ， 例 如 ，aov 返 回 类 “aov” 
的 对 象 ， Im 返回 类 “lm” 的 对 象 。 

泛 型 函数 的 优势 在 于 一 个 函数 对 所 有 类 的 使 用 格式 都 是 一 样 的 。 例 如 ，summary 是 最 常 
用 的 用 于 解析 统计 分 析 结 果 的 R 函 数 ， 它 可 以 显示 较为 细致 的 结果 。 无 论 作 为 参数 的 对 象 是 
“Im” 类 (线性 模型 ) 还 是 “aov” 类 (方差 分 析 ) ， 显 示 的 信息 是 不 一 样 的 。 

R 还 有 一 个 重要 性 质 是 ， 一 个 包含 分 析 结 果 的 对 象 常常 是 一 个 列表 对 象 ， 它 的 类 定义 决 
定 了 它 的 结果 展示 方式 ， 即 输入 参数 的 对 象 类 型 决定 一 个 函数 的 行为 。 如 表 7.7 所 示 列 出 了 一 
些 泛 型 函数 ， 主 要 用 于 提取 分 析 结 果 对 象 的 信息 : 
> mod <- l]m(y ~ x) 
> df.residual (mod) 


[1] 8 
表 7.7 提取 分 析 结 果 对 象 的 信息 的 主要 泛 型 函数 
函数 名 说 明 
返回 简单 的 汇总 信息 
summary 返回 较为 详细 的 汇总 信息 
residuals 返回 残 差 
df.residual 返回 残 差 的 自由 度 
fitted 返回 拟 合 值 
deviance 返回 方差 
coef 返回 被 估计 的 系数 以 及 标准 差 
AIC 计算 Akaike 信 息 准 则 ( Akaike information eriterion，AIC ) ( 依赖 于 logLik0 ) 
logLik 计算 返回 参数 数目 和 对 数 似 然 值 


泛 型 函数 通常 是 调用 自 变量 所 属 类 的 对 应 函数 ， 其 中 调用 的 函数 称 为 方法 ( method ) ， 
很 少 对 对 象 进行 操作 。 简 单 来 说 ， 一 个 方法 的 构建 方式 是 generic.cls， 其 中 cls 是 对 象 的 类 。 例 
如 ， 以 summary 为 例 ， 下 面 是 对 应 的 方法 : 
> apropos ("^summary") 
[1] “summary" "summary.aov" 
[3] "summary.aovlist" "summary.connection™ 
[5] "summary.data.frame™" "summary.default" 


[7] "summary.factor" "summary.glm" 
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[9] "summary.glm.nul1"” "summary.infl™ 
[11] “summary.lm" "summary.lm.null™ 
[13] "summary.manova" "summary.matrix" 
[15] "summary.mlm" "summary.packageStatus" 
[17] “summary.POSIXct" "summary.POSIX1t" 
[19] "summary.table" 
在 线性 回归 和 方差 分 析 中 泛 型 函数 的 行为 是 不 同 的 ， 通 过 下 面 的 例子 ， 可 以 看 出 : 
> nornmio 
> Im pray < RE xy) 
> names (lm.spray) 
1] "coefficients" "residuals" "effects" 
4] "rank" "fitted.values" "assign" 
7] "qr" "df.residual" "xlevels" 
10] "call™" "terms" "model" 
> names (summary (lm. spray)) 
[1] "cal1" "terms" "residuals" 
4] "coefficients" "sigma" "df" 


7] "r.squared" "adj.r.squared" "fstatistic" 


10] "cov.unscaled" 

表 7.8 给 出 了 其 他 一 些 泛 型 函数 ， 可 以 对 分 析 结 果 对 象 做 一 些 补充 分 析 ， 其 主要 参数 一 般 
是 其 分 析 结 果 对 象 ， 但 有 些 情 况 下 需要 一 些 额 外 的 参数 ， 如 泛 型 函数 predict 或 update。 

表 7.8 ” 泛 型 函数 的 额外 参数 


函数 名 
篆 助 拟 合 的 模型 计算 一 个 新 的 数据 集 的 预测 值 
使 用 新 的 数据 或 者 公式 拟 合 一 个 模型 
anova 计算 一 个 或 多 个 模型 的 方差/ 残 差分 析 表 
dropl | 连续 测试 所 有 可 以 从 模型 中 移 除 的 元 素 项 | 
addl | 连续 测试 所 有 可 以 加 入 模型 的 元 素 项 | 
step | 通过 AIC ( 调用 add1 和 drop1 ) 选择 一 个 模型 | 


除 此 之 外 ， 还 有 很 多 效用 函数 和 图 形 函 数 ， 效 用 函数 可 用 于 从 模型 对 象 或 公式 中 提取 信 
息 ， 如 可 用 来 查找 一 个 特定 公式 拟 合 的 线性 模型 中 的 线性 依赖 项 的 函数 alias。 图 形 函数 ， 如 
可 以 显示 多 种 多 样 的 诊断 图 的 plot， 还 有 上 面 例子 中 的 termplot， 尽 管 后 面 一 个 函数 不 是 泛 型 
函数 但 它 调用 了 泛 型 函数 predict。 


7.4.1 描述 性 统计 分 析 


1. 单 组 数据 的 描述 性 统计 
描述 性 统计 中 ， 样 本 的 观测 值 中 含有 总 体 各 方面 的 信息 ， 它 来 自 总 体 ， 信 息 较 为 分 散 ， 
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显得 杂乱 无 章 。 为 了 能 够 反映 总 体 的 各 项 特征 ， 需 要 将 这 些 分 散在 样本 中 的 有 关 总 体 的 信息 
集中 起 来 ， 对 样本 进行 加 工 得 到 统计 量 ?。 在 描述 性 统计 量 的 计算 方面 ，R 中 有 很 多 的 选择 。 
下 面 先 从 基础 安装 中 包含 的 函数 入 手 学 习 ， 然 后 再 学 习 用 户 贡 献 包 中 的 扩展 函数 。 
本 节 将 使 用 Motor Trend 杂志 的 车 辆 路 试 ( mtcars ) 数据 集 。 这 里 的 关注 焦点 是 每 加 仑 汽油 
行驶 英里 数 (mpg ) 、 马 力 (hp ) 和 车 重 (wt ) 。 
> vars <— © ("mpg”, "hp", "wEw) 
> head (mtcars[vars] ) 


mg hp WwW 


Mazda RX4 21.0 110 2.62! 
Mazda RX4 Wag 21.0 110 2.87 
Datsun 710 22.8 93 2.32! 


Hornet 4 Drive 21.4 110 3.21. 
Hornet Sportabout 18.7 175 3.44! 


首先 可 看 所 有 32 种 车 型 的 描述 性 统计 量 ， 然 后 按照 变速 箱 类 型 (am ) 和 汽缸 数 ( cyl ) 考 
察 描述 性 统计 量 。 变 速 箱 类 型 是 一 个 以 0 表示 自动 挡 、1 表 示 手 动 挡 来 编码 的 二 分 变量 ， 而 汽 
饶 数 可 为 4、5 或 6。 
对 于 基础 安装 ， 可 以 使 用 summary0 函 数 来 获取 描述 性 统计 量 。 
> summary (mtcars [vars] ) 
mpg hp we 
Min. :10.40 Min. : 52.0 Min. :1.51 
ist Qu.:15.43 1ist Qu.: 96.5 1sc Qu.:2.58 
Median :19.20 Median :123.0 Median :3.32 
Mean :20.09 Mean :146.7 Mean :3.21 
3rd Qu.:22.80 3rd Qu.:180.0 3rd Qu.:3.61 


summary() 函 数 提供 了 最 小 值 、 最 大 值 、 四 分 位 数 和 数值 型 变量 的 均值 ， 以 及 因子 向 量 
和 人 迎 辑 型 向 量 的 频数 统计 。 可 以 使 用 apply0 函 数 或 sapply0 函 数 计算 所 选择 的 任意 描述 性 统计 
量 。 对 于 sapply0 函 数 ， 其 使 用 格式 为 : 

>Sapply (x, FUN, options) 

其 中 的 x 是 用 户 定义 的 数据 框 ( 或 矩阵 ) ，FUN 为 一 个 任意 的 函数 。 如 果 指 定 了 options， 
它们 将 被 传递 给 FUN。 用 户 定义 可 以 在 这 里 插入 的 典型 函数 有 mean、sd、var、min、max、 
median 、length 、range 和 quantile。 函 数 fivenum() 可 返回 图 基 五 数 概括 (Tukey”s five-number 
summary， 即 最 小 值 、 下 四 分 位 数 、 中 位 数 、 上 四 分 位 数 和 最 大 值 ) 。 

令 人 惊讶 的 是 ， 基 础 安装 并 没有 提供 偏 度 和 峰 度 的 计算 函数 ， 不 过 用 户 可 以 自行 添加 如 
下 代码 : 


> mystats <- function(x, na.omit = FALSE) { 


+ if (na.omit) 

所 x <- x[!is.na(x)] 
证 m <- mean (x) 

和 n <- length (x) 

证 s <- sd(x) 
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skew <- sum((x - m) ^3/s^3) /mn 


kurt <- sum((x - m) ^4/s^4)m - 3 


+ 
+ 
+ return(c(n = n, mean = m, stdev = s, skew = skew, kurtosis = kurt)) 
二 7 

> sapply(mtcars [vars]，mystats) 


mpg hp we 
n 32.000000 32.0000000 32.00000000 
mean 20.090625 146.6875000 3.21725000 
stdev 6.026948 68.5628685 0.97845744 
Skew 0.610655 0.7260237 0.42314646 
kurtosis -0.372766 -0.1355511 -0.02271075 


对 于 样本 中 的 车 型 ， 每 加 仑 汽油 行驶 英里 数 的 平均 值 为 20.1， 标 准 差 为 6.0。 分 布 呈 现 右 
偏 ( 偏 度 +0.61 ) ， 并 且 较 正 态 分 布 稍 平 ( 峰 度 ~ 0.37 ) 。 如 果 对 数据 进行 绘图 操作 ， 那 这 些 
特征 就 更 显而易见 了 。 注 意 ， 如 果 只 希望 单纯 地 忽略 缺失 值 ， 那 么 应 当 使 用 : 
sapply (mtcars[vars], mystats, na.omit=TRUE) 

2. 分 组 计算 的 描述 性 统计 量 

在 比较 多 组 个 体 或 观测 时 ， 关 注 的 焦点 经 常 是 各 组 的 描述 性 统计 信息 ， 而 不 是 样本 整体 
的 描述 性 统计 信息 。 同 样 地 ， 在 R 中 完成 这 个 任务 有 很 多 种 方法 。 我 们 将 以 获取 变速 箱 类 型 各 
水 平 的 描述 性 统计 量 开始 。 可 以 使 用 aggregate0 函 数 来 分 组 获取 描述 性 统计 量 ， 代 码 如 下 : 
> aggregate (mtcars[vars], by = list(am = mtcars$am), mean) 
am mpg hp we 
1 0 17.14737 160.2632 3.768895 
2 1 24.39231 126.8462 2.411000 


> aggregate (mtcars[vars], by = list(am = mtcars$am), sd) 


am mpg hp wt 
1 0 3.833966 53.90820 0.7774001 
2 1 6.166504 84.06232 0.6169816 


注意 list(am=mtcars$Sam) 的 使 用 。 如 果 使 用 的 是 list(mtcars$Sam)， 则 am 列 将 被 标注 为 Group.1 
而 不 是 am。 使 用 这 个 赋值 指定 了 一 个 更 有 帮助 的 列 标签 。 

psych 包 中 的 describe.by() 函 数 可 计算 和 describe 相 同 的 描述 性 统计 量 ， 只 是 按照 一 个 或 多 
个 分 组 变量 分 层 ， 使 用 psych 包 中 的 describe.by0 分 组 计算 概述 统计 量 


> describe.by (mtcars[vars], mtcars$am) 


group: 0 
Vars n mean sdmedian trimmed mad min max range = 
mpg 119 17.15 3.83 17.30 17.12 3.11 10.40 24.40 14.00 0 
hp 2 19 160.26 53.91 175.00 161.06 77.10 62.00 245.00 183.00 -0 
wt 319 3.77 0.78 3.52 3.75 0.45 2.46 5.42 2.96 0 
kurtosis se 
mpg -0.80 0.88 
hp -1.21 12.37 
wr 0.14 0.18 
group: 1 
vars n mean sdmedian trimmed mad min max range sk 
mpg 113 24.39 6.17 22.80 24.38 6.67 15.00 33.90 18.90 0. 
hp 2 13 126.85 84.06 109.00 114.73 63.75 52.00 335.00 283.00 1. 
wt 313 2.41 0.62 2.32 2.39 0.68 1.51 3.57 2.06 0- 
kurtosis se 
mpg -1.46 1.71 
hp 0.56 23.31 


we -1.17 0.17 
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与 前 面 的 示例 不 同 ，describe.by0 函 数 不 允 许 指定 任意 函数 ， 所 以 它 的 普 适 性 较 低 。 若 存 
在 一 个 以 上 的 分 组 变量 ,可 以 使 用 list(groupvarl, groupvar2,.….， groupvarN) 来 表示 它们 。 但 这 仅 
在 分 组 变量 交叉 后 不 出 现 空白 单元 时 有 效 。 

数据 分 析 人 员 对 于 展示 哪些 描述 性 统计 量 以 及 结果 采用 什么 格式 都 有 着 自己 的 偏好 ， 这 也 
许 就 是 有 如 此 多 不 同方 法 的 原因 。 用 户 可 以 选择 最 适合 的 方式 ， 或 是 创造 属于 自己 的 方法 。 


7.4.2 ”频数 表 和 列 联 表 


在 本 节 中 ,我 们 将 着 眼 于 类 别 型 变量 的 频数 表 和 列 联 表 ， 以 及 相应 的 独立 性 检验 、 相 
关 性 的 度量 、 图 形 化 展示 结果 的 方法 。 除 了 使 用 基础 安装 中 的 函数 外 ， 还 将 使 用 ved 包 和 
gmodels 包 中 的 函数 。 下 面 的 示例 中 ,假设 A、B 和 C 代 表 类 别 型 变量 。 

本 节 中 的 数据 来 自 ved 包 中 的 Arthritis 数 据 集 。 这 份 数据 来 自 Kock&Edward(1988)， 表 示 了 
一 项 风湿 性 关节 炎 新 疗法 的 双 讶 临床 实验 的 结果 。 前 几 个 观测 是 这 样 的 : 
> library (vcd) 
> head (Arthritis) 


ID Treatment Sex Age Improved 


1 57 Treated Male 27 Some 
2 46 Treated Male 29 None 
377 Treated Male 30 None 


4 17 Treated Male 32 Marked 

5 36 Treated Male 46 Marked 

6 23 Treated Male 58 Marked 
1 


治疗 情况 〈 安奈 剂 治疗 、 用 药 治疗 ) 、 性 别 ( 男性 、 女 性 ) 和 改善 情况 ( 无 改善 、 一 定 
程度 的 改善 、 显 著 改 善 ) 均 为 类 别 型 因子 。 
R 中 提供 了 用 于 创建 频数 表 和 列 联 表 的 若干 种 方法 。 其 中 最 重要 的 函数 已 列 于 表 7.9 中 。 


表 7.9 ”创建 频数 表 和 列 联 表 方 法 
| 描述 
使 用 N 个 类 别 型 变量 ( 因子 ) 创建 一 个 N 维 列 联 表 
根据 一 个 公式 和 一 个 矩阵 或 数据 框 创建 一 个 N 维 列 联 表 
依 margins 定 义 的 边际 列表 将 表 中 条 目 表示 为 分 数 形式 
依 margins 定 义 的 边际 列表 计算 表 中 条 目的 和 
addmargins(table,margins) 将 概述 边 margins ( 默认 是 求 和 结果 ) 放 入 表 中 
创建 一 个 紧凑 的 “ 平 铺 ” 式 列 联 表 | 
接 下 来 ， 将 逐个 使 用 以 上 函数 来 探索 类 别 型 变量 。 首 先 考察 简单 的 频率 表 ， 接 下 来 是 二 
维 列 联 表 ， 最 后 是 多 维 列 联 表 。 第 一 步 是 使 用 table() 或 xtabs0 函 数 创建 一 个 表 ， 然 后 使 用 其 他 
函数 处 理 它 。 
一 维 列 联 表 可 以 使 用 table0 函 数 生成 简单 的 频数 统计 表 。 示 例如 下 : 
> mytable <- with (Arthritis，table (Improved)) 
> mytable 


Improved 
None Some Marked 
42 14 28 
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可 以 用 prop.table0 将 这 些 频数 转化 为 比例 值 : 
> prop.table (mytable) 


Improved 
None Some Marked 
0.5000000 0.1666667 0.3333333 


或 使 用 prop.table0*100 转 化 为 百分比 : 
> prop.table (mytable) *100 
Improved 


None Some Marked 
50.00000 16.66667 33.33333 


这 里 可 以 看 到 ， 有 50% 的 研究 参与 者 获得 了 一 定 程度 或 者 显著 的 改善 ( 16.7 + 33.3 ) 。 对 
于 二 维 列 联 表 ，table0 函 数 的 使 用 格式 为 : 
mytable<-table (A, B) 
其 中 的 A 是 行 变量 ，B 是 列 变量 。 除 此 之 外 ，xtabs0 函 数 还 可 使 用 公式 风格 的 输入 创建 列 
联 表 ， 格 式 为 : 
mytable<-xtabs (~A+B, datamydata) 
其 中 的 mydata 是 一 个 矩阵 或 数据 框 。 总 的 来 说 ， 要 进行 交叉 分 类 的 变量 应 出 现在 公式 的 
右 侧 ( 即 ~ 符号 的 右 方 ) ， 以 + 作为 分 隔 符 。 若 某 个 变量 写 在 公式 的 左 侧 ， 则 其 为 一 个 频数 
向 量 ( 在 数据 已 经 被 表格 化 时 很 有 用 ) 。 
对 于 Arthritis 数 据 ， 有 : 
> mytable <- xtabs(~ Treatment+Improved, data=Arthritis) 
> mytable 
对 于 Arthritis 数 据 ， 有 : 


> mytable <- xtabs (~ Treatment+Improved, data=Arthritis) 


> mytable 
Improved 
Treatment None Some Marked 
Placebo 29 了 芝 
Treated 13 了 21 
可 以 使 用 margin.table0 和 prop.table0 函 数 分 别 生成 边际 频数 和 比例 。 行 和 与 行 比例 可 以 这 
样 计算 : 
> margin.table (mytable，1) 
Treatment 
Placebo Treated 
43 41 


> prop.table (mytable, 1) 


Improved 
Treatment None Some Marked 
Placebo 0.6744186 0.1627907 0.1627907 
Treated 0.3170732 0.1707317 0.5121951 


下 标 1 指 代 table0 语 句 中 的 第 一 个 变量 。 观 察 表格 可 以 发 现 ， 与 接受 安慰 剂 的 个 体 中 有 显 
著 改 善 的 16% 相 比 ， 接 受 治疗 的 个 体 中 的 51% 的 个 体 病情 有 了 显著 的 改善 。 
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列 和 与 列 比例 可 以 这 样 计算 : 
> margin.table (mytable, 2) 
Improved 


None Some Marked 
42 14 28 


> prop.table (mytable, 2) 
Improved 
Treatment None Some Marked 
Placebo 0.6904762 0.5000000 0.2500000 
Treated 0.3095238 0.5000000 0.7500000 


这 里 的 下 标 2 指 代 table0) 语 句 中 的 第 二 个 变量 ， 如 果 有 两 个 以 上 的 类 别 型 变量 ,那么 就 
是 在 处 理 多 维 列 联 表 ，table() 和 xtabs() 都 可 以 基于 三 个 或 更 多 的 类 别 型 变量 生成 多 维 列 联 
表 。margin.table(0) 、prop.table0 和 addmargins(0) 函 数 可 以 自然 地 推广 到 高 于 二 维 的 情况 。 另 外 ， 
ftable0 函 数 可 以 以 一 种 紧凑 而 吸引 人 的 方式 输出 多 维 列 联 表 。 

以 下 代码 生产 了 三 维 分 组 各 单元 格 的 频数 ， 同 时 演示 了 如 何 使 用 ftable() 函 数 输 出 更 加 紧 
凑 和 吸引 人 的 表格 。 


> mytable <- xtabs (~ Treatment+Sex+Improved，data=Rrthritis) 


yy Improved = None 


Sex 
Treatment Female Male 
Placebo 19 10 
Treated 6 可 


Improved = Some 


Treatment Female Male 
Placebo 7 0 
Treated 5 2 


+ + Improved = Marked 


Sex 
Treatment Female Male 
Placebo 6 1 
Treated 16 5 


>ftable( mytable) 


Improved None Some Marked 
Treatment Sex 


Placebo Female 19 本 6 
Male 10 0 1 
Treated Female 6 5 16 
Male 者 2 5 


以 下 代码 为 治疗 情况 (Treatment ) 、 性 别 ( Sex ) 和 改善 情况 ( Improved ) 生成 了 边际 
频数 。 使 用 公式 ~ Treatement+Sex+Improve 创 建 了 这 个 表 ， 所 以 Treatment 需 要 通过 下 标 1 来 引 
用 ; Sex 通 过 下 标 2 来 引用 ; Improve 通 过 下 标 3 来 引用 。 


> margin.table (mytable, 1) 
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Treatment 
Placebo Treated 
43 41 


> margin.table (mytable, 2) 
Sex 


Female Male 
59 25 


> margin.table (mytable，3) 


Improved 
None Some Marked 
42 14 28 


下 面 的 代码 为 治疗 情况 ( Treatment ) x 改善 情况 ( Improved ) 分 组 的 边际 频数 ， 由 不 同 


性 别 (Sex ) 的 单元 汇总 而 成 。 
> margin.table (mytable, c(1,3)) 


Improved 
Treatment None Some Marked 
Placebo 29 7 y 4 
Treated 13 7 21 


每 个 Treatment x Sex 组 合 中 改善 情况 为 None 、Some 和 Marked 患 者 的 比例 。 在 这 里 可 以 看 
到 治疗 组 的 男性 中 有 36% 有 了 显著 改善 ， 女 性 为 59%。 总 而 言 之 ， 比 例 将 被 添加 到 不 在 prop. 


table0 调 用 中 的 下 标 上 。 
> ftable (prop.table (mytable, c(1, 2))) 


Improved None Some Mar 

Treatment Sex 
Placebo Female 0.59375000 0.21875000 0.18750 
Male 0.90909091 0.00000000 0.09090 
Treated Female 0.22222222 0.18518519 0.59259 
Male 0.50000000 0.14285714 0.35714 


> ftable (addmargins (Prop.table (mytable, c(1,2)),3)) 


Improved None Some Marked 
Treatment Sex 
Placebo Female 0.59375000 0.21875000 0.18750000 1.00000 
Male 0.90909091 0.00000000 0.09090909 1.00000 
Treated Female 0.22222222 0.18518519 0.59259259 1.00000 
Male 0.50000000 0.14285714 0.35714286 1.00000 


列 联 表 可 以 看 出 组 成 表格 的 各 种 变量 组 合 的 频数 或 比例 ， 可 能 还 会 对 列 联 表 中 的 变量 是 
否 相关 或 独立 感 兴趣 。 可 使 用 卡 方 独立 性 检验 chisq.text0 和 Fisher 精 确 检 验 fisher.text0 等 进行 独 
立 性 的 检验 。 


7.4.3 ”相关 分 析 
根据 变量 间 的 相互 关系 可 分 为 两 种 类 型 09， 相 关 关 系 和 函数 关系 。 相 关 关系 是 相关 分 析 
的 研究 对 象 ， 指 两 个 变量 的 数值 变化 存在 的 依存 关系 不 完全 确定 ， 它 们 之 间 的 数值 不 能 用 方 
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程 表示 出 来 ， 但 可 用 某 种 相关 性 度量 来 刻 划 ; 函数 关系 是 回归 分 析 的 研究 对 象 ， 指 变量 之 间 
存在 的 相互 依存 关系 ,它们 之 间 的 关系 可 以 用 某 一 方程 y=ftx) 表 达 出 来 。 相 关 的 种 类 繁多 ， 
按照 不 同 的 标准 有 不 同 的 划分 。 根 据 不 同 的 相关 形式 ， 可 以 划分 为 线性 相关 和 非 线 性 相关 ; 
根据 不 同 的 相关 方向 ， 可 以 划分 为 正 相 关 和 负 相 关 ; 根据 不 同 的 相关 程度 ， 可 以 划分 为 不 相 
关 、 不 完全 相关 和 完全 相关 ; 根据 涉及 变量 的 多 少 ， 可 分 为 一 元 相关 和 多 元 相关 ; 根据 影响 
因素 的 不 同 ， 可 分 为 单 相关 和 复 相关 。 

R 可 以 计算 多 种 相关 系数 ， 包 括 Pearson 相 关系 数 、Spearman 相 关系 数 、Kendall 相 关系 
数 、 偏 相关 系数 、 多 分 格 ( polychoric ) 相关 系数 和 多 系列 ( polyserial ) 相关 系数 。 下 面 就 来 
介绍 这 些 相关 系数 。 


1. Pearson、Spearman 和 Kendall 相 关 


Pearson 积 差 相关 系数 衡量 了 两 个 定量 变量 之 间 的 线性 相关 程度 。Spearman 等 级 相关 系数 
则 衡量 分 级 定 序 变量 之 间 的 相关 程度 。Kendall’'s Tau 相 关系 数 也 是 一 种 非 参数 的 等 级 相关 度 
量 。cor() 函 数 可 以 计算 这 三 种 相关 系数 ， 而 cov0 函 数 可 用 来 计算 协 方差 。 两 个 函数 的 参数 有 
很 多 ， 其 中 与 相关 系数 的 计算 有 关 的 参数 可 以 简化 为 : 
cor(x,use= ,method= ) 

x: 矩阵 或 数据 ; use: 指定 缺失 数据 的 处 理 方式 。 可 选 的 方式 为 all.obs ( 假设 不 存 
在 缺失 数据 ， 遇 到 缺失 数据 时 将 报错 ) 、everything ( 遇 到 缺失 数据 时 ， 相 关系 数 的 计算 
结果 将 被 设 为 missing ) 、complete.obs ( 行 删除 ) 以 及 pairwise.complete.obs ( 成 对 删除 ， 
pairwisedeletion ) ; method: 指定 相关 系数 的 类 型 。 可 选 类 型 为 pearson、 spearman 或 kendall 默 
认 参 数 为 use="everything" 和 method="pearson"。 
> states <- state.x77[, 1:6] 


> cov (states) 


Population Income Illiteracy Life Exp Murder 
Population 19931683.7588 571229.7796 292.8679592 -407.8424612 5663.523714 
Income 571229.7796 377573.3061 -163.7020408 280.6631837 -521.894286 
Tlliteracy 292.8680 -163.7020 0.3715306 -0.4815122 1.581776 
Life Exp -407.8425 280.6632 -0.4815122 1.8020204 -3.869480 
Murder 5663.5237 -521.8943 1.5817755 -3.8694804 13.627465 
HS Grad -3551.5096 3076.7690 -3.2354694 6.3126849 -14.549616 
HS Grad 
Population -3551.509551 
Income 3076.768980 
Tlliteracy -3.235469 
Life Exp 6.312685 
Murder -14.549616 
HS Grad 65.237894 


> cor (states) 


Population Income Illiteracy Life Exp Muz 
Population 1.00000000 0.2082276 0.1076224 -0.06805195 0.3436 
Income 0.20822756 1.0000000 -0.4370752 0.34025534 -0.2300 


Illiteracy 0.10762237 -0.4370752 1.0000000 -0.58847793 0.702s 
Life Exp -0.06805195 0.3402553 -0.5884779 1.00000000 -0.7808 


Murder 0.34364275 -0.2300776 0.7029752 -0.78084575 1.0000 

HS Grad -0.09848975 0.6199323 -0.6571886 0.58221620 -0.487S 
HS Grad 

Population -0.09848975 

Income 0.61993232 


Illiteracy -0.65718861 
Life Exp 0.58221620 
Murder -0.48797102 
HS Grad 1.00000000 
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> corl(states, method="spearman") 

Population Income Illiteracy Life Exp Murder HS Grad 
Population 1.0000000 0.1246098 0.3130496 -0.1040171 0.3457401 -0.3833649 
Income 0.1246098 1.0000000 -0.3145948 0.3241050 -0.2174623 0.5104809 
Illiteracy 0.3130496 -0.3145948 1.0000000 -0.5553735 0.6723592 -0.6545396 
Life Exp -0.1040171 0.3241050 -0.5553735 1.0000000 -0.7802406 0.5239410 
Murder 0.3457401 -0.2174623 0.6723592 -0.7802406 1.0000000 -0.4367330 
HS Grad -0.3833649 0.5104809 -0.6545396 0.5239410 -0.4367330 1.0000000 


第 一 个 语句 是 计算 方差 和 协 方差 ， 第 二 个 语句 则 计算 Pearson 积 差 相关 系数 ， 第 三 个 语 
句 计算 Spearman 等 级 相关 系数 。 在 该 例 中 ， 可 以 看 到 收入 和 高 中 毕业 率 之 间 存 在 很 强 的 正 相 
关 ， 而 文盲 率 和 预期 寿命 之 间 存 在 很 强 的 负 相 关 。 

2. 偏 相关 

偏 相 关 是 指 在 控制 一 个 或 多 个 定量 变量 时 ， 另 外 两 个 定量 变量 之 间 的 相互 关系 。 可 以 使 
用 ggm 包 中 的 pcor() 函 数 计算 偏 相 关系 数 。ggm 包 没有 被 默认 安装 ， 在 第 一 次 使 用 之 前 需要 先进 
行 安装 。 函 数 调 用 格式 为 : 
pcor (u,s) 

其 中 的 u 是 一 个 数值 向 量 ， 前 两 个 数值 表示 要 计算 相关 系数 的 变量 下 标 ， 其 余 的 数值 为 
条 件 变量 ( 即 要 排除 影响 的 变量 ) 的 下 标 。$ 为 变量 的 协 方差 阵 。 这 个 示例 有 助 于 阐明 用 法 : 
> library (ggm) 
> # 在 控制 了 收入 、 文 盲 率 和 高 中 毕业 率 时 
> # 人 口 和 谍 杀 率 的 偏 相关 系数 
> peorielln Sr Zr 3 6 covtstaLss)y) 
[1] 0.3462724 

本 例 中 ,在 控制 了 收入 、 文 盲 率 和 高 中 毕业 率 的 影响 时 ， 人 口 和 谍 杀 率 之 间 的 相关 系数 
为 0.346。 偏 相关 系数 常用 于 社会 科学 的 研究 中 。 


3. 其 他 类 型 的 相关 


polycor 包 中 的 hetcor() 函 数 可 以 计算 一 种 混合 的 相关 和 矩阵， 其 中 包括 数值 型 变量 的 Pearson 
积 差 相关 系数 、 数 值 型 变量 和 有 序 变 量 之 间 的 多 系列 相关 系数 、 有 序 变 量 之 间 的 多 分 格 相关 
系数 以 及 二 分 变量 之 间 的 四 分 相关 系数 。 多 系列 、 多 分 格 和 四 分 相关 系数 都 假设 有 序 变 量 或 
二 分 变量 由 潜在 的 正 态 分 布 导出 。 请 参考 此 程序 包 所 附 文档 以 了 解 更 多 内 容 。 

4. 相关 性 的 显著 性 检验 

在 计算 好 相关 系数 以 后 ， 如 何 对 它们 进行 统计 显著 性 检验 呢 ， 常 用 的 原 假 设 为 变量 间 不 
相关 ( 即 总 体 的 相关 系数 为 0 ) 。 可 使 用 cortest0 函 数 对 单个 的 Pearson 、Spearman 和 Kendall 相 
关系 数 进行 检验 。 简 化 后 的 使 用 格式 为 : 
cor.test (x,y,alternative= ,method= ) 

其 中 的 x 和 y 为 要 检验 相关 性 的 变量 ，alternative 则 用 来 指定 进行 双 侧 检验 或 单 侧 
检验 ( 取 值 为 "two.side" 、 "less" 或 "greater" ) ， 而 method 用 以 指定 要 计算 的 相关 类 型 
("pearson" 、"kendall" 或 "spearman" ) 。 当 研究 的 假设 为 总 体 的 相关 系数 小 于 0 时 ， 请 使 用 
alternative="less"。 在 研究 的 假设 为 总 体 的 相关 系数 大 于 0 时 ， 应 使 用 alternative="greater"。 在 
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默认 情况 下 ， 假 设 为 alternative="two.side" ( 总 体 相关 系数 不 等 于 0 ) 。 


> cor.test(states[, 3], states[, 5]) 


Pearson's product-moment correlation 

data: states[, 3] and states[, 5] 
t = 6.8479, df = 48, p-value = 1.258e-08 
alternative hypothesis: true correlation is not equal to 0 
95 percent confidence interval: 
0.5279280 0.8207295 
sample estimates: 

cor 
0.7029752 


以 上 代码 检验 的 原 假设 是 : 预期 寿命 和 谋杀 率 的 Pearson 相 关系 数 为 0。 假 设 总 体 的 相 
关 度 为 0， 则 预计 在 一 千 万 次 中 只 会 有 少 于 一 次 的 机 会 见 到 0.703 这 样 大 的 样本 相关 度 ( 即 
p=1.258e-8 ) 。 由 于 这 种 情况 几乎 不 可 能 发 生 ， 故 拒绝 原 假设 ， 从 而 支持 了 要 研究 的 假设 ， 
即 预期 寿命 和 谋杀 率 之 间 的 总 体 相关 度 不 为 0。 


7.4.4” 夫 验 


在 研究 中 最 常见 的 行为 就 是 对 两 个 组 进行 比较 。 接 受 某 种 新 药 治 疗 的 患者 是 否 较 使 用 某 
种 现 有 药物 的 患者 表现 出 了 更 大 程度 的 改善 ? 某 种 制造 工艺 是 否 较 另 外 一 种 工艺 制造 出 的 不 
合格 品 更 少 ” 两 种 教学 方法 中 哪 一 种 更 有 效 ? 如 果 你 的 结果 变量 是 类 别 型 的 ， 那 么 可 以 直接 
使 用 7.3 节 中 阐述 的 方法 。 这 里 我 们 将 关注 结果 变量 为 连续 型 的 组 间 比 较 ， 并 假设 其 呈正 态 分 
布 。 为 了 阐明 方法 ,将 使 用 MASS 包 中 的 UScrime 数 据 集 。 它 包含 了 1960 年 美国 47 个 州 的 刑罚 
制度 对 犯罪 率 影响 的 信息 。 我 们 感 兴趣 的 结果 变量 为 Prob ( 监禁 的 概率 ) 、U1 ( 14 ~ 24 岁 年 
龄 段 城市 男性 失业 率 ) 和 U2 ( 35 ~ 39 岁 年 龄 段 城市 男性 失业 率 ) 。 类 别 型 变量 So ( 指示 该 州 
是 否 位 于 南方 的 指示 变量 ) 将 作为 分 组 变量 使 用 。 数 据 的 尺度 已 被 原始 作者 缩放 过 。 

1. 独立 样本 的 检验 

如 果 一 个 人 在 美国 的 南方 犯罪 ， 是 否 更 有 可 能 被 判 监禁 ? 这 里 比较 的 对 象 是 美国 南方 和 
非 南方 各 州 ， 因 变量 为 监禁 的 概率 。 一 个 针对 两 组 的 独立 样本 / 栓 验 可 以 用 于 检验 两 个 总 体 的 均 
值 相等 的 假设 。 这 里 假设 两 组 数据 是 独立 的 ， 并 且 是 从 正 态 总 体 中 抽 得 。 检 验 的 调用 格式 为 : 

七 .test (y~ x,data) 

其 中 的 y 是 一 个 数值 型 变量 ，x 是 一 个 二 分 变量 。 调 用 格式 为 : 

t.test (Y1,Y2) 

其 中 的 y1 和 y2 为 数值 型 向 量 ( 即 各 组 的 结果 变量 ) 。 可 选 参数 data 的 取 值 为 一 个 包含 了 
这 些 变量 的 矩阵 或 数据 框 。 与 其 他 多 数 统计 软件 不 同 的 是 ， 这 里 的 检验 默认 假定 方差 不 相 
等 ， 并 使 用 Welsh 的 修正 自由 度 。 可 以 添加 一 个 参数 varequal=TRUE 以 假定 方差 相等 ， 并 使 用 
合并 方差 估计 。 默 认 的 备 择 假设 是 双 侧 的 ( 即 均值 不 相等 ， 但 大 小 的 方向 不 确定 ) 。 可 以 添 
加 一 个 参数 alternative="less" 或 alternative="greater" 来 进行 有 方 向 的 检验 。 

在 下 列 代码 中 ,我 们 使 用 了 一 个 假设 方差 不 等 的 双 侧 检验 ， 比 较 了 南方 ( groupl ) 和 非 
南方 (group0 ) 各 州 的 监禁 概率 : 
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> 七 .test (Prob ~ So, data=UScrime) 


Welch Two Sample t-test 
data; Prob by So 
t= -3.8954, df = 24.925, p-value = 0.0006506 
alternative hypothesis: true difference in means is not equal to 0 
95 percent confidence interval: 
-0.03852569 -0.01187439 
sample estimates: 
mean in group 0 mean in group 1 
0.03851265 0.06371269 
可 以 拒绝 南方 各 州 和 非 南方 各 州 拥有 相同 监禁 概率 的 假设 (p < .001 ) 。 
2. 非 独立 样本 的 ! 检 验 


再 举 个 例子 ， 可 能 会 问 : 较 年 轻 ( 14 ~ 24 岁 ) 男性 的 失业 率 是 否 比 年 长 ( 35 ~ 39 岁 ) 
男性 的 失业 率 更 高 ? 在 这 种 情况 下 ， 这 两 组 数据 并 不 独立 。 不 能 说 亚 拉巴 马 州 的 年 轻 男性 
和 年 长 男性 的 失业 率 之 间 没 有 关系 。 在 两 组 的 观测 之 间 相 关 时 ， 获 得 的 是 一 个 非 独 立 组 设 
计 ( dependent groups design ) 。 前 一 后 测 设计 ( pre-post design ) 或 重复 测量 设计 ( repeated 
measures design ) 同样 也 会 产生 非 独立 的 组 。 
非 独立 样本 的 检验 假定 组 间 的 差异 呈正 态 分 布 。 对 于 本 例 ， 检 验 的 调用 格式 为 
t.test (Y1,Y2,paired=TRUE) 

其 中 的 y1 和 y2 为 两 个 非 独 立 组 的 数值 向 量 。 结 果 如 下 : 
> library (MASS) 
> sapply(UScrime[c("Ul", "U2")], function(x) (c(mean = mean(x), sd = 
sd (x)))) 

v1 v2 

mean 95.46809 33.97872 

sd 18.02878 8.44545 
> with(UScrime, t.test (Ul, U2, paired = TRUE)) 


Paired t-test 

data: Ul and U2 
t = 32.4066, df = 46, p-value < 2.2e-16 
alternative hypothesis: true difference in means is not equal to 0 
95 percent confidence interval: 
57.67003 65.30870 
sample estimates: 
mean of the differences 

61.48936 


差异 的 均值 ( 61.5 ) 足够 大 ， 可 以 保证 拒绝 年 长 和 年 轻 男性 的 平均 失业 率 相同 的 假设 。 
年 轻 男性 的 失业 率 更 高 。 事 实 上 ， 若 总 体 均值 相等 ， 获 取 一 个 差异 如 此 大 的 样本 的 概率 小 于 
0.000 000 000 000 000 22 - 


7.4.5 回归 分 析 


与 回归 分 析 相 比 ， 相 关 分 析 不 能 回答 在 两 个 变量 之 间 存 在 相关 关系 时 ， 它 们 之 间 是 如 何 
联系 的 ， 即 无 法 找 出 刻画 它们 之 间 因 果 关 系 的 函数 关系 ， 而 只 能 得 出 两 个 变量 之 间 是 否 存在 
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相关 关系 。 回 归 分 析 就 可 以 解决 这 一 问题 ， 先 从 一 元 线性 回归 讲 起 。 

1. 简单 线性 回归 

设 变量 x 和 y 之 间 存 在 一 定 的 相关 关系 ， 回 归 分 析 方 法 即 找 出 7 的 值 是 如 何 随 X 的 值 的 变化 
而 变化 的 规律 ， 称 了 为 因 变量 ( 或 响应 变量 ) , X 为 自 变量 ( 或 解释 变量 ) 。 

最 简单 的 拟 合 回归 模型 函数 是 Im()， 格 式 为 : 
myfit<-lm (formula, data) 

其 中 ，formula 指 要 拟 合 的 模型 形式 ，data 是 一 个 数据 框 ， 包含 了 用 于 拟 合 模型 的 数据 。 
结果 对 象 ( 本 例 中 是 myfit ) 存储 在 一 个 列表 中 ， 包含 了 所 拟 合 模 型 的 大 量 信 息 。 表 达 式 
( formula ) 形式 如 下 : 


Y~ XI+X2+…+Xrk 
~ 左边 为 响应 变量 ,右边 为 各 个 预测 变量 ， 预 测 变量 之 间 用 + 号 分 隔 。 除 了 lm()， 表 7.10 
还 列 出 了 其 他 一 些 对 做 简单 或 多 元 回归 分 析 有 用 的 函数 。 拟 合 模型 后 ， 将 这 些 函 数 应 用 于 
lm0 返 回 的 对 象 ， 可 以 得 到 更 多 额外 的 模型 信息 。 
表 7.10 ”对 拟 合 线性 模型 非常 有 用 的 其 他 函数 
用 这 
展示 拟 合 模型 的 详细 结果 


coefficients() 列 出 拟 合 模型 的 模型 参数 ( 截 距 项 和 斜率 ) 
confint0 提供 模型 参数 的 管 信和 区 间 ( 默认 95% ) 


列 出 拟 合 模型 的 预测 值 
列 出 拟 合 模型 的 残 差 值 


anoval() 生成 一 个 拟 合 模型 的 方差 分 析 表 ， 或 者 比较 两 个 或 更 多 拟 合 模型 的 方差 分 析 表 
veov0 列 出 模型 参数 的 协 方差 矩阵 

AICO 输出 赤 池 信息 统计 量 

plot0 生成 评价 拟 合 模型 的 诊断 图 

predict() 用 拟 合 模 型 对 新 的 数据 集 预 测 响应 变量 值 


当 回归 模型 包含 一 个 因 变 量 和 一 个 自 变量 时 ， 称 为 简单 线性 回归 。 当 只 有 一 个 预测 变 
量 , 但 同时 包含 变量 的 寡 ( 比如 , 开 、 豆 、 豆 ) 时 ， 称 之 为 多 项 式 回归 。 当 有 不 止 一 个 预测 变 
量 时 ， 则 称 为 多 元 线性 回归 。 现 在 ， 首 先 从 一 个 简单 的 线性 回归 例子 开始 介绍 。 

例 : bschool 是 美国 60 个 著名 商学 院 的 数据 ， 包 括 的 变量 有 GMAT 分 数 、 学 费 、 进 入 MBA 
前 后 的 工资 等 ， 现 在 仅 研究 进入 MBA 前 后 的 工资 变化 。 执 行 下 述 命令 ,可 得 如 图 7.14 所 示 的 
结果 。 
y=read.csv ("bschool0.txt") 
attach (y) 
plot (SalaPreMBA, SalaPostMBA, xlab="SalaryPreMBA", ylab="SalaryPostMBA") 

可 以 看 出 ， 进 入 MBA 前 工资 高 的 ， 毕 业 后 也 高 - 
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> y=read.csv ("bschool .txt",header=T, sep=", ") 
> lm=lm(SalaPostMBA~ SalaPreMBA, y) 
> summary (lm) 


Call: 
lm(formola = SalaPostMBA ~ SalaPreMBA, data = y) 


Residuals: 
Min 1Q Median 3Q Max 
-32.877 -5.952 -0.087 6.802 23.636 


Coefficients: 
Estimate Std. Error t value Pr(>1cl) 
(Intercept) -11.4026 6.8394 -1.667 0.101 
SalaPreMBA 2.8290 0.1535 18.434 <2e-16 ««* 
Signif. codes: 0 ‘weer 0.001 ‘ee 0.01 ‘** 0.05 ‘.* 0.1 ‘1 


Residual standard error: 10.1 on 58 degrees of freedom 
Multiple R-squared: 0.8542, Adjusted R-squared: 0.8517 
F-statistic: 339.8 on 1 and 58 DF, p-value: < 2.2e-16 


执行 下 述 命 令 得 到 如 图 7.15 所 示 的 图 表 。 
> s<-y$SalaPreMBA 
> t<-y$SalaPostMBA 
> plot(s,t, xlab="Salary Pre MBA",ylab="Salary Post MBA") 
> abline (lm, col="blue", lty=1) 
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图 7.14 进入 MBA 前 后 的 工资 变化 图 7.15 进入 MBA 前 的 工资 和 得 到 MBA 后 的 工资 回归 直线 

根据 计算 ， 找 到 进入 MBA 前 的 工资 和 得 到 MBA 之 后 的 工资 的 回归 直线 。R 软 件 的 输出 给 

出 来 的 截 距 -11.4026 和 斜率 2.829， 该 直线 的 方程 为 : 
Y=-11.40+2.83x 

2. 多 元 线性 回归 

当 预 测 变 量 不 止 一 个 时 ， 简 单线 性 回归 就 变 成 了 多 元 线性 回归 ， 分析 也 稍微 复杂 些 。 
从 技术 上 来 说 ， 多 项 式 回归 可 以 算是 多 元 线性 回归 的 特例 ， 二 次 回归 有 两 个 预测 变量 (了 和 
五 ) ,三 次 回归 有 三 个 预测 变量 ( 蕊 、 互 和 豆 ) 。 现 在 让 我 们 看 一 个 更 一 般 的 例子 。 
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以 基础 包 中 的 state.x77 数 据 集 为 例 ， 在 本 例 中 想 探 究 一 个 州 的 犯罪 率 和 其 他 因素 的 关 
系 ， 包括 人 口 、 文 盲 率 、 平 均 收 入 和 结 霜 天 数 ( 温度 在 冰点 以 下 的 平均 天 数 ) 。 

因为 Im() 函 数 需 要 一 个 数据 框 ( state.x77 数 据 集 是 矩阵 ) ， 为 了 以 后 处 理 方便 ， 需 要 做 如 
下 转化 : 

states <- as.dqata.frame (state.x77[，c("Murder"，"Population"，"I11iteracy"， 
"Income"， "Frost")]) 

这 行 代码 创建 了 一 个 名 为 states 的 数据 框 ， 包 含 了 我 们 感 兴趣 的 变量 。 本 章 的 余下 部 分 ， 
我 们 都 将 使 用 这 个 新 的 数据 框 。 多 元 回归 分 析 中 ， 第 一 步 最 好 检查 一 下 变量 间 的 相关 性 。 
cor() 函 数 提供 了 二 变量 之 间 的 相关 系数 ，car 包 中 scatterplotMatrix() 函 数 则 会 生成 散 点 图 矩阵 
图 7.16 所 示 。 
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图 7.16 ” 州 府 数据 中 因 变 量 与 自 变量 的 散 点 图 矩阵 


检测 二 变量 关系 : 
> cor (states) 


Murder Population Illiteracy Income Frost 
Murder 1.0000000 0.3436428 0.7029752 -0.2300776 -0.5388834 
Population 0.3436428 1.0000000 0.1076224 0.2082276 -0.3321525 
Illiteracy 0.7029752 0.1076224 1.0000000 -0.4370752 -0.6719470 
Income -0.2300776 0.2082276 -0.4370752 1.0000000 0.2262822 
Frost -0.5388834 -0.3321525 -0.6719470 0.2262822 1.0000000 


>library (car) > scatterplotMatr 
ix(states, spread = FALSE, lty.smooth = 2, main = "Scatterplot Matrix") 


scatterplotMatrix() 函 数 默 认 在 非 对 角 线 区 域 绘制 变量 间 的 散 点 图 ， 并 添加 平滑 (loess ) 
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和 线性 拟 合 曲线 。 对 角 线 区 域 绘制 每 个 变量 的 密度 图 和 轴 须 图 。 从 图 中 可 以 看 到 ， 谋 杀 率 是 
双 峰 的 曲线 ， 每 个 预测 变量 都 一 定 程度 上 出 现 了 偏 斜 。 谋 杀 率 随 着 人 口 和 文言 率 的 增加 而 增 
加 ， 随 着 收入 水 平和 结 霜 天 数 增加 而 下 降 。 同 时 可 看 出 ， 越 冷 的 州 府 文盲 率 越 低 ， 收 入 水 平 
越 高 。 

现在 使 用 Im0 函 数 拟 合 多 元 线性 回归 模型 : 
> fit <- lm(Murder ~ Population + Illiteracy + Income + Frost, data = 
states) 
> summary (fit) 
i ee ~ Population + Illiteracy + Income + Frost, 
a 1Q Median 3Q Max 
-4.7960 -1.6495 -0.0811 1.4815 7.6210 
es ‘stimate Std. Error t value Br(>1c1) 
(Intercept) 1.235e+00 3.866e+00 0.319 0.7510 


Population 2.237e-04 9.052e-05 2.471 0.0173 * 
Illiteracy 4.143e+00 8.744e-01 4.738 2.19e-05 *** 


Income 6.442e-05 6.837e-04 0.094 0.9253 
Frost 5.813e-04 1.005e-02 0.058 0.9541 
Signif. codes: 0 ‘eee 0.001 ‘eer 0.01 ‘er 0.05 \- 0.1 "1 


Residual standard error: 2.535 on 45 degrees of freedom 
Multiple R-squared: 0.567, Adjusted R-squared: 0.5285 
F-statistic: 14.73 on 4 and 45 DF, p-value: 9.133e-08 


当 预 测 变量 不 止 一 个 时 ， 回 归 系 数 的 含义 为 : 一 个 预测 变量 增加 一 个 单位 ， 其 他 预测 变 
量 保持 不 变 时 ， 因 变量 将 要 增加 的 数量 。 例 如 本 例 中 , 文盲 率 的 回归 系数 为 4.14， 表 示 控 制 
人 口 、 收 入 和 温度 不 变 时 ,文盲 率 上 升 1%， 谋 杀 率 将 会 上 升 4.14%， 它 的 系数 在 p<0.001 的 水 平 
下 显著 不 为 0。 相 反 ，Frost 的 系数 没有 显著 不 为 0 (p=0.954 ) ， 表 明 当 控制 其 他 变量 不 变 时 ， 
Frost 与 Murder 不 呈 线 性 相关 。 总 体 来 看 ， 所 有 的 预测 变量 解释 了 各 州 谋杀 率 57% 的 方差 。 

以 上 分 析 中 ,没有 考虑 预测 变量 的 交互 项 ， 在 接 下 来 的 章节 中 ， 我 们 将 考虑 一 个 包含 此 
因素 的 例子 。 

3. 回归 诊断 


使 用 lm() 函 数 来 拟 合 回归 模型 ， 通 过 summary() 等 函数 获取 模型 的 参数 和 相关 统计 量 。 但 
是 ， 没 有 任何 输出 能 告诉 你 模型 是 否 合适 ， 对 模型 参数 推断 的 信心 依赖 于 它 在 多 大 程度 上 满 
足 OLS 模 型 统计 假设 。 为 数据 的 无 规律 性 或 者 错误 设 定 了 预测 变量 与 响应 变量 的 关系 ， 都 将 
使 你 的 模型 产生 巨大 的 偏差 。 一 方面 ， 可 能 得 出 某 个 预测 变量 与 响应 变量 无 关 的 结论 ， 但 事 
实 上 ， 它 们 相关 ; 另 一 方面 ， 情 况 可 能 恰好 相反 。 当 模型 应 用 到 真实 世界 中 时 ， 预 测 效果 可 
能 很 差 ， 误 差 显著 。 

回归 诊断 技术 向 用 户 提供 了 评价 回归 模型 适用 性 的 必要 工具 ， 它 能 帮助 发 现 并 纠正 问 
题 。 这 里 的 探讨 使 用 了 R 基 础 包 中 的 函数 的 标准 方法 。 

R 基 础 安装 中 提供 了 大 量 检 验 回归 分 析 中 统计 假设 的 方法 。 最 常见 的 方法 就 是 对 Im0 函 数 
返回 的 对 象 使 用 plot0 函 数 ， 可 以 生成 评价 模型 拟 合 情 况 的 四 幅 图 形 。 虽 然 这 些 标准 的 诊断 图 
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形 很 有 用 ， 但 是 R 中 还 有 更 好 的 工具 可 用 ， 例 如 car 包 提供 了 大 量 函 数 ， 大 大 增强 了 拟 合 和 评 
价 回归 模型 的 能 力 ， 在 此 就 不 详细 阐述 。 
(1) 正 态 性 
与 基础 包 中 的 plot0) 函 数 相 比 ，qqplot0 函 数 提供 了 更 为 精确 的 正 态 假 设 检验 方法 ， 它 面 出 
了 在 n-p-1 个 自由 度 的 {分 布下 的 学 生化 残 差 ( studentized residual， 也 称 学 生化 市 残 差 或 折 圣 
化 残 差 ) 图 形 ， 其 中 n 是 样本 大 小 ，p 是 回归 参数 的 数目 ( 包括 截 距 项 ) 。 
(2 ) 误差 的 独立 性 
判断 因 变量 值 ( 或 残 差 ) 是 否 相互 独立 ， 最 好 的 方法 是 依据 收集 数据 方式 的 先 验 知识 。 
例如 ， 时 间 序 列 数据 通常 呈现 自 相 关 性 一 一 相隔 时 间 越 近 的 观测 相关 性 大 于 相隔 越 远 的 观 
测 。car 包 提供 了 一 个 可 做 Durbin-Watson 检 验 的 函数 ， 能 够 检测 误差 的 序列 相关 性 。 
(3) 线性 
通过 成 分 残 差 图 ( component plus residual plot ) 也 称 偏 残 差 图 ( partial residual plot ) ， 可 
以 看 看 因 变 量 与 自 变量 之 间 是 否 呈 非 线性 关系 ,也 可 以 看 看 是 否 有 不 同 于 已 设 定 线性 模型 的 
系统 偏差 ， 图 形 可 用 car 包 中 的 crPlots0 函 数 绘制 。 
(4) 同方 差 性 
car 包 提供 了 两 个 有 用 的 函数 ， 可 以 判断 误差 方差 是 否 恒 定 。ncvTest0 函 数 生 成 一 个 计 分 
检验 ， 零 假设 为 误差 方差 不 变 ， 备 择 假设 为 误差 方差 随 着 拟 合 值 水 平 的 变化 而 变化 。 若 检验 
显著 ， 则 说 明 存在 异 方差 性 ( 误差 方差 不 恒定 ) 。 
(5 ) 多 重 共 线性 
多 重 共 线 性 (multicollinearity ) ， 它 会 导致 模型 参数 的 置信 区 间 过 大 ， 使 单个 系数 解释 起 
来 很 困难 。 多 重 共 线 性 可 用 统计 量 VIF ( Variance Inflation Factor， 方差 膨 胀 因子 ) 进行 检测 。 
VIF 的 平方 根 表示 变量 回归 参数 的 置信 区 间 能 膨胀 为 与 模型 无 关 的 预测 变量 的 程度 ( 因此 而 得 
名 ) 。car 包 中 的 vif0 函 数 可 以 提供 VIF 值 。 一 般 原 则 下 ，vif>2 就 表明 存在 多 重 共 线 性 问题 。 
4. 模型 的 选择 
当选 定 一 个 模型 ， 并 且 用 数据 拟 合 时 ， 并 不 一 定 所 有 的 变量 都 显著 ， 或 者 说 并 不 一 定 所 
有 的 系数 都 有 意义 ， 这 时 需要 一 边 回归 一 边 检 验 ， 进 行 所 谓 逐 步 回 归 ， 这 个 方法 或 者 从 只 有 
常数 项 开始 ， 逐 步 把 显著 的 变量 加 入 ; 或 者 从 包含 所 有 变量 的 模型 考试 ， 逐 步 把 不 显著 的 变 
量 减 去 ; 也 可 以 同时 有 加 有 减 的 双向 逐步 回归 。 
逐步 回归 法 的 实现 依据 增删 变量 的 准则 不 同 而 不 同 。MASS 包 中 的 stepAIC0 函 数 可 以 实现 
逐步 回归 模型 ( 向 前 、 向 后 和 向 前 向 后 ) ， 依 据 的 是 精确 AIC 准 则 。 下 面 的 例子 中 ,采用 的 
是 向 后 回归 。 
> library (MASS) 
> fitl <- lm(Murder ~ Population + Illiteracy + Income + Frost, data = 
states) 


> stepAIC (fit, direction = "backward") 
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Start: AIC=97.75 
Murder ~ Population + Illiteracy + Income + +Frost 


DF Sum of Sq Rss AIC 
— Frost 1 0.021 289.19 95.753 
— Income 1 0.057 289.22 95.759 
<none> 289.17 97.749 


- Population 1 39.238 328.41 102.111 
- IllireracYy 1 144.264 433.43 115.986 


Step: AIC=95.75 
Murder ~ Population + Illiteracy + Income 


Df Sum of Sq Rss AIC 
— Income 人 0.057 289.25 93.763 
<none> 289.19 95.753 


- Population 1 43.658 332.85 100.783 
- Illiteracy 1 236.196 525.38 123.605 


Step: AIC=93.76 
Murder ~ Population + Illiteracy 


DE Sum of Sq RSS AIC 
<none> 289.25 93.763 
- Population 1 48.517 337.76 99.516 
- Illiteracy 1 299.646 588.89 127.311 


开始 时 模型 包含 4 个 〈 全 部 ) 预测 变量 ， 然 后 在 每 一 步 中 ，AIC 列 提供 了 删除 一 个 行 中 变 
量 后 模型 的 AIC 值 ，<none> 中 的 AIC 值 表示 没有 变量 被 删除 时 模型 的 AIC。 第 一 步 ，Frost 被 删 
除 ，AIC 从 97.75 降 低 到 95.75; 第 二 步 ， 删 除 Income，AIC 继 续 下 降 到 为 93.76; 然后 再 删除 变 
量 将 会 增加 AIC， 因 此 终止 选择 过 程 。 逐 步 回 归 法 其 实 存在 争议 ， 虽 然 它 可 能 会 找到 一 个 好 
的 模型 ， 但 是 不 能 保证 模型 就 是 最 佳 模型 ， 因 为 不 是 每 一 个 可 能 的 模型 都 被 评价 了 。 为 克服 
这 个 限制 ， 便 有 了 全 子 集 回归 法 。 


7.4.6 方差 分 析 

方差 分 析 又 称 “F 检 验 ”“ 变 异 数 分 析 ”®， 可 对 两 个 或 两 个 以 上 的 样本 均 数 的 差别 进行 
显著 性 检验 。 它 是 一 种 分 析 各 个 自 变量 对 因 变 量 的 影响 的 方法 ， 其 自 变量 是 定性 变量 的 因子 
及 可 能 出 现 的 称 为 协 变量 的 定量 变量 。 首 先 自 变量 的 取 值 不 同 ， 因 变量 的 值 也 会 变化 ,方差 
分 析 可 对 其 进行 分 解 ， 从 而 得 出 每 一 个 自 变量 对 结果 都 有 一 份 贡献 。 其 次 把 剩 下 的 不 能 用 已 
知 原因 解释 的 当做 随机 误差 。 然 后 对 各 自 变 量 和 随机 误差 的 贡献 进行 F 检 验 ， 从 而 输出 f- 值 
和 检验 的 一 些 p- 值 ， 来 判断 该 自 变量 的 不 同 水 平 对 因 变 量 的 变化 是 否 有 显著 贡献 。 最 后 会 得 
出 一 个 方差 分 析 表 来 表示 分 析 结 果 。 

1. 单 因素 方差 分 析 

单 因素 方差 分 析 ， 比 较 分 类 因子 定义 的 两 个 或 多 个 组 别 中 的 因 变 量 均 值 。 以 multcomp 包 
中 的 cholesterol 数 据 集 为 例 ( 取 自 Westfall，Tobia，Rom， Hochberg, 1999 ) ， 50 个 患者 均 接 受 
降低 胆固醇 药物 治疗 ( trt ) 五 种 疗法 中 的 一 种 疗法 。 其 中 三 种 治疗 条 件 使 用 药物 相同 ， 分 别 
是 20mg 一 天 一 次 ( ltime ) 、10mg 一 天 两 次 ( 2times ) 和 5mg 一 天 四 次 ( 4times ) 。 剩 下 的 两 种 
方式 ( drugD 和 drugE ) 代表 候选 药物 。 哪 种 药物 疗法 降低 胆固醇 ( 响应 变量 ) 最 多 ? 
> library (multcomp) 
> attach (cholesterol) 
> table (trt) 


© http://wenku.baidu.com/view/38cA9640blc59eef8c7b4f5.html 


trt 
1time 2times 4times drugD drugE 
10 10 10 10 10 


> aggregate (response, by = list(trt), FUN = mean) 


Group.1 :3 
1 1time 5.78197 
2 2times 9.22497 
3 4times 12.37478 
4 drugD 15.36117 
每 drugE 20.94752 


> aggregate (response, by = list(trt), FUN = sd) 


Group.1 广 
1 itime 2.878113 
2 2times 3.483054 
3 4times 2.923119 
4 drugD 3.454636 
5 drugE 3.345003 


> fit <- aov(response ~ trt) 
> summary (fit) 
DE Sum Sq Mean Sq F value Pr(>F) 
Erc 4 1351.4 337.8 32.43 9.82e-13 ww 
Residuals 45 468.8 10.4 
Signif. codes: 0 vewwy 0.001 ‘0r 0.01 ‘er 0.05 ‘1 0.1 va 
> library (gplots) 
>plotmeans (response ~ trt, xlab = "Treatment", 
"Mean Plot\nwith 95% CI") 


> detach (cholesterol) 
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ylab = "Response", main = 


从 输出 结果 可 以 看 到 ， 每 10 个 患者 接受 其 中 一 个 药物 疗法 。 均 值 显示 drugE 降 低 胆 固 醇 
最 多 ， 而 ltime 降 低 胆固醇 最 少 ， 各 组 的 标准 差 相 对 恒定 ， 在 2.88 到 3.48 间 浮动 。ANOVA 对 
治疗 方式 (trt ) 的 F 检 验 非常 显著 (p<0.0001 ) ,说 明 五 种 疗法 的 效果 不 同 。gplots 包 中 的 
plotmeans() 可 以 用 来 绘制 带 有 置信 区 间 的 组 均值 图 形 ， 如 图 7.17 所 示 ， 图 形 展示 了 带 有 95% 的 


置信 区 间 的 各 疗法 均值 ， 可 以 清楚 看 到 它们 之 间 的 差异 。 


Mean Plot with 95% CI 
二 
20 于 | 
T 
时 15 本 
i | 
10J T 一 1 
Th 
| 刘 
n=10 n=10 n=10 n=10 n=10 
T 


T T T T 
ltime 2times 4times drugD drugE 


Tretment 


图 7.17 五 种 降低 胆固醇 药物 疗法 的 均值 ，95% 的 置信 区 间 
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2. 多 重 比较 

虽然 ANOVA 对 各 疗法 的 F 检 验 表明 五 种 药物 疗法 效果 不 同 ， 但 是 并 没有 告诉 用 户 哪 种 疗 
法 与 其 他 疗法 不 同 。 多 重 比 较 可 以 解决 这 个 问题 。 例 如 ，TukeyHSD0 函 数 提供 了 对 各 组 均值 
差异 的 成 对 检验 。 
> TukeyHSD (fit) 


Tukey multiple comparisons of means 
95% family-wise confidence level 


Fit: aov(formula = response ~ trt) 


S$trt 

diff lwr upr p adj 
2rimes-ltime 3.44300 -0.6582817 7.544282 0.1380949 
4times-1ltime 6.59281 2.4915283 10.694092 0.0003542 
drugD-1time 9.57920 5.4779183 13.680482 0.0000003 
drugE-1time 15.16555 11.0642683 19.266832 0.0000000 
4times-2times 3.14981 -0.9514717 7.251092 0.2050382 
drugD-2times 6.13620 2.0349183 10.237482 0.0009611 
drugE-2times 11.72255 7.6212683 15.823832 0.0000000 
drugD-4times 2.98639 -1.1148917 7.087672 0.2512446 
drugE-4times 8.57274 4.4714583 12.674022 0.0000037 
drugE-drugD 5.58635 1.4850683 9.687632 0.0030633 


> par(las = 2) 

> par(mar = c(5, 8, 4, 2)) 
> plot (TukeyHSD (fit) ) 

> par (opar) 

可 以 看 到 ，ltime 和 2times 的 均值 差异 不 显著 (p=0.138 ) ， 而 ltime 和 4times 间 的 差异 非常 
显著 (p<0.001 ) 。 成 对 比较 图 形 如 图 7.18 所 示 。 第 一 个 par 语 句 用 来 旋转 轴 标 签 ， 第 二 个 用 
来 增 大 左边 界 的 面积 ， 可 使 标签 摆 放 更 美观 。 图 形 中 置信 区 间 包 含 0 的 疗法 说 明 差异 不 显著 
(p>0.05 ) 。 


95% family-wise confidence level 


2times-ltime 
dtimes—ltime 
drugD—ltime 
drugE-—ltime 
dtimes—2times 
drugD-2times 
drugE—2times 
drugD 一 times 
drugE—4times 
drugE-drugD 


E1 10 15 20 
Differences in mean lecels of trt 


图 7.18 Tukey HSD 均 值 成 对 比较 图 
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3. 双 因素 方差 分 析 


对 于 两 因素 的 方差 分 析 ， 基 本 思想 和 方法 与 单 因素 的 方差 分 析 相似 ， 前 提 条 件 仍 然 是 要 
满足 独立 、 正 态 、 方 差 齐 性 。 与 单 因 素 方差 分 析 所 不 同 的 是 在 双 因 素 方 差分 析 中 ， 有 时 会 出 
现 交 互 作用 ， 即 二 因素 的 不 同 水 平 交叉 搭配 对 指标 产生 影响 ， 这 就 出 现 两 种 情况 ， 有 交互 作 
用 的 双 因素 分 析 和 无 交互 作用 的 双 因 素 分 析 。 在 R 软 件 中 ， 方 差分 析 函 数 aov0 既 适合 于 单 因 
素 方差 分 析 ， 也 同样 适用 于 双 因素 方差 分 析 ， 其 中 方差 模型 公式 为 x ~ A+B， 加 号 表示 两 个 因 
素 具有 可 加 的 。 在 此 不 做 详 例 说 明 ， 可 参考 专门 的 R 统 计 书 籍 。 


7.5 RR 的 高 级 数据 分 析 


R 除 了 上 述 的 初级 数据 分 析 方法 之 外 ， 还 有 一 些 较为 高 级 的 数据 分 析 方 法 ， 例 如 广义 线 
性 模型 、 聚 类 分 析 、 判 别 分 析 、 主 成 分 分 析 、 因 子 分 析 等 ， 下 面 逐 一 介绍 这 些 高 级 数据 分 析 
方法 。 


7.5.1 广义 线性 模型 


许多 广泛 应 用 的 、 流 行 的 数据 分 析 方 法 其 实 都 归属 于 广义 线性 模型 框架 。 首 先 ， 将 简短 
回顾 这 些 方法 背后 的 理论 。 现 假设 想 要 对 响应 变量 Z 和 ip 个 预测 变量 页,… 马 间 的 关系 进行 建 
模 。 在 标准 线性 模型 中 ， 你 可 以 假设 青 正 态 分 布 ， 关 系 的 公式 为 : 


By (7-2) 

该 等 式 表 明 响 应 变量 的 条 件 均值 是 预测 变 重 的 线性 组 合 。 参数 8 指 一 单位 Z 的 变化 造成 的 
7 预期 的 变化 ，pBo 指 当 所 有 预测 变量 都 为 0 时 7 的 预期 值 。 对 于 该 等 式 ， 你 可 通俗 地 理解 为 : 给 
定 一 系列 X 变 量 的 值 ， 赋 予 X 变 量 合适 的 权重 ,然后 将 它们 加 起 来 ， 便 可 预测 7 观测 值 分 布 的 
均值 。 

值得 注意 的 是 ， 这 里 并 没有 对 预测 变量 做 任何 分 布 的 假设 ,与 7 不 同 ， 它 们 不 需要 呈正 
态 分 布 。 实 际 上 ， 它 们 常 为 类 别 型 变量 ( 比如 方差 分 析 设 计 ) 。 另 外 ， 对 预测 变量 使 用 非 线 
性 函数 也 是 允许 的 ， 比 如 常会 使 用 预测 变量 XY 或 者 名 x 鸟 ， 只 要 等 式 的 参数 (Pp6Bi1.…,B, ) 为 
线性 即 可 。 

广义 线性 模型 拟 合 的 公式 为 : 


2(4) -41 8% (7-3) 


其 中 8(L9 是 条 件 均值 的 函数 ( 称 为 连接 函数 ) 。 另外 ， 可 放弃 Z 为 正 态 分 布 的 假设 ， 改 
为 了 服从 指数 分 布 族 中 的 一 种 分 布 即 可 。 设 定好 连接 函数 和 概率 分 布 后 ， 便 可 以 通过 最 大 似 
然 估 计 的 多 次 迭代 推导 出 各 参数 值 。 


1. glm() 函 数 
在 R 中 可 通过 glm 函 数 (还 可 用 其 他 专门 的 函数 ) 拟 合 广义 线性 模型 。 它 的 形式 与 Im() 类 
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似 ， 只 是 多 了 一 些 参 数 。 函 数 的 基本 形式 为 : 
glm(formula, family=family (link=function), data= ) 
表 7.11 列 出 了 概率 分 布 (family ) 和 相应 默认 的 连接 函数 ( function ) 。 
表 7.11 glm() 的 参数 


分 布 族 默认 的 连接 函数 
binomial (link = "logit") 
gaussian | (link = "identity") 
gamma | (link = "inverse") 


inverse.gaussian "1l/mu2 


poisson i "log") 


Quasibinomial ink = "logit") 


glm() 函 数 可 以 拟 合 许多 流行 的 模型 ， 比 如 Logistic 回 归 、 泊 松 回归 和 生存 分 析 ( 此 处 不 考 
虑 ) 。 下 面 对 Logistic 模 型 进行 阐述 。 假 设 你 有 一 个 响应 变量 (了) 、 三 个 预测 变量 ( 马 、 马 、 
五 ) 和 一 个 包含 数据 的 数据 框 (mydata ) 

Logistic 回 归 适 用 于 二 值 响应 变量 ( 0,1 ) 。 模 型 假设 7 服从 二 项 分 布 ， 线 性 模型 的 拟 合 形 
式 为 ; 


iD)= 用 +13p x (7.4) 

其 中 r= 作 是 Z 的 条 件 均值 ( 即 给 定 一 系列 X 的 值 时 二 1 的 概率 ) ; -mo 为 区 1 时 的 优势 
比 ; log(rl-m)) 为 对 数 优势 比 ， 也 可 省 略为 logit。 本 例 中 log(rl-m)) 为 连接 函数 ， 概 率 分 布 为 
二 项 分 布 ， 可 用 如 下 代码 拟 合 Logistic 回 归 模 型 : 
glm(Y~ Xl1+X2+X3, family=binomial (link="logit"), data=mydata) 

2. Logistic 回 归 

当 通过 一 系列 连续 型 或 类 别 型 预测 变量 来 预测 二 值 型 结果 变量 时 ，Logistic 回 归 是 
一 个 非常 有 用 的 工具 。 以 AER 包 中 的 数据 框 Affairs 为 例 ， 将 通过 探究 婚外情 的 数据 来 曾 
述 Logistie 回 归 的 过 程 。 首 次 使 用 该 数据 前 ， 请 确保 已 下 载 和 安装 此 软件 包 ( 使 用 install. 
packages("AER"))。 婚 外 情 数据 即 著名 的 “Fair”s Affairs”， 取 自 于 1969 年 《今日 心理 》 
( Psychology Today ) 所 做 的 一 个 调查 ， 而 Greene ( 2003 ) 和 Fair ( 1978 ) 都 对 它 进 行 过 分 析 。 
该 数据 从 601 个 参与 者 身上 收集 了 9 个 变量 ， 包括 一 年 来 婚 外 私 通 的 频率 以 及 参与 者 性 别 、 年 
龄 、 婚 龄 、 是 否 有 小 孩 、 宗 教 信仰 程度 ( 5 分 制 ，1 分 表示 反对 ，5 分 表示 非常 信仰 ) 、 学 历 、 
职业 (逆向 编号 的 戈 登 ?种 分 类 ) ,还 有 对 婚姻 的 自我 评分 ( 5 分 制 ，1 表 示 非 常 不 幸福 ，5 表 
示 非 常 幸福 ) 。 

先 看 一 些 描述 性 的 统计 信息 : 
> data (Affairs, package = "AER") 


> summary (Affairs) 
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affairs gender 
female:315 
male :286 


yearsmarried 。 children 
Mn. :0.125 no :171 
yes:430 


education 
Min. 


和 
451 34 17 19 42 38 


从 这 些 统计 信息 可 以 看 到 ，52% 的 调查 对 象 是 女性 ，72% 的 人 有 孩子 ， 样 本 年 龄 的 中 位 
数 为 32 岁 。 对 于 响应 变量 ，72% 的 调查 对 象 表示 过 去 一 年 中 没有 婚外情 ( 451/601 ) ， 而 有 婚 
外 情 的 最 多 次 数 为 12 ( 占 了 6% ) 。 

虽然 这 些 婚 如 的 轻率 举动 次 数 被 记录 下 来 , 但 此 处 我 们 感 兴趣 的 是 二 值 型 结果 ( 有 过 一 
次 婚外情 /没有 过 婚外情 ) 。 按 照 如 下 代码 ， 可 将 affairs 转 化 为 二 值 型 因子 ynaffair。 

> Affairs$ynaffair[Affairs$affairs > 0] <- 1 

> Affairs$ynaffair[Affairs$affairs == 0] <- 0 

> Affairs$ynaffair <- factor(Affairs$ynaffair, levels = c(0, 1), labels 
CINo” “Yes™)) 


> table (Affairs$ynaffair) 


No Yes 
451 150 


该 二 值 型 因子 现 可 作为 Logistic 回 归 的 结果 变量 : 


> fit.full <- glm(ynaffair ~ gender + age + yearsmarried + children + 


religiousness + education + occupation + rating, data = Affairs, family 
binomial ()) 
> summary (fit.full) 


Call: 

glm(formula = Ynaffair ~ gender + age + yearsmarried + children + 
religiousness + education + occupation + rating, family = binomial(), 
dara = Affairs) 


Deviance Residuals: 
Min 1Q Median 3Q Max 
-1.5713 -0.7499 -0.5690 -0.2539 2.5191 


Coefficients: 
Estimate Std. Error z value Pr(>1z1) 
{Intercept) 1.37726 0.88776 1.551 0.120807 
gendermale 0.28029 0.23909 1.172 0.241083 
age -0.04426 0.01825 -2.425 0.015301 « 
Yearsmarried 0.09477 0.03221 2.942 0.003262 ** 
childrenyes 0.39767 0.29151 1.364 0.172508 
religiousness -0.32472 0.08975 -3.618 0.000297 ww* 
education 0.02105 0.05051 0.417 0.676851 
occupation 0-.03092 0 9 
rating -0.46845 0 2 


Signif. codes: 0 ‘sse 0.001 ‘se* 0.01 ‘** 0.05 \.+ 0.1 **1 


.07178 0.431 
.09091 -5.153 


.666630 
-56e-07 wo 


(Dispersion parameter for binomial family taken to be 1) 

Null deviance: 675.38 on 600 degrees of freedom 
Residual deviance: 609.51 on 592 degrees of freedom 
AIC: 627.51 


Number of Fisher Scoring iterations: 4 
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从 回归 系数 的 p 值 ( 最 后 一 栏 ) 可 以 看 到 ， 性 别 、 是 否 有 孩子、 学 历 和 职业 对 方程 的 贡 
献 都 不 显著 ( 你 无 法 拒绝 参数 为 0 的 假设 ) 。 去 除 这 些 变量 重新 拟 合 模型 ， 检 验 新 模型 是 否 拟 
合 得 好 : 

> fit.reduced <- glm(ynaffair ~ age + yearsmarried + religiousness + rating, 
data = Affairs, family = binomial ()) 
> summary (fit .reduced) 
Call: 
glm(formula = ynaffair ~ age + yearsmarried + religiousness + 
rating, family = binomial(), data = Affairs) 
Deviance Residuals: 

Min 1Q Median 3Q Max 
-1.6278 -0.7550 -0.5701 -0.2624 2.3998 
Coefficients: 

Estimate Std. Error z value Pr(>1zl) 
{Intercept) 1.93083 0.61032 3.164 0.001558 ww 
age -0.03527 0.01736 -2.032 0.042127 * 
Yearsmarried 0.10062 0.02921 3.445 0.000571 www 
religiousness -0.32902 0.08945 -3.678 0.000235 wwm 
rating -0.46136 0.08884 -5.193 2.06e-07 wwe 
Signif. codes: 0 es” 0.001 ‘««* 0.01 ‘** 0.05 0.1、 ”1 
(Dispersion parameter for binomial family taken to be 1) 

Null deviance: 675.38 on 600 degrees of freedam 
Residual deviance: 615.36 on 596 degrees of freedom 
AIC: 625.36 


Number of Fisher Scoring iterations: 4 


新 模型 的 每 个 回归 系数 都 非常 显著 (p<0.05 ) 。 由 于 两 模型 嵌 套 (fitreduced 是 fitfull 的 一 
个 子 集 ) ， 你 可 以 使 用 anova0 函 数 对 它们 进行 比较 ， 对 于 广义 线性 回归 ， 可 用 卡 方 检验 。 
> anova (fit .reduced, fit.full, test = "Chisq") 


Model 1: ynaffair ~ age + yearsmarried + religiousness + rating 
Model 2: ynaffair ~ gender + age + yearsmarried + children + religiousness + 
education + occupation + rating 
Resid. Df Resid. Dev Df Deviance Pr(>Chi) 
1 596 615.36 
2 592 609.51 4 5.8474 0.2108 


结果 的 卡 方 值 不 显著 (p=0.21 ) ， 表 明 四 个 预测 变量 的 新 模型 与 九 个 完整 预测 变量 的 模 
型 拟 合 程度 一 样 好 。 从 中 可 以 看 出 添加 性 别 、 孩 子 、 学 历 和 职业 变量 不 会 显著 提高 方程 的 预 
测 精度 ， 因 此 可 以 依据 更 简单 的 模型 进行 解释 。 


7.5.2 聚 类 分 析 


聚 类 分 析 是 研究 “ 物 以 类 聚 ” 的 一 种 方法 ， 也 有 人 称 它 为 群 分 析 、 点 群 分 析 、 簇 群 分 析 
等 。 系 统 聚 类 法 是 将 n 个 样品 分 成 若干 类 的 方法 8， 首先 将 n 个 样品 各 自 看 成 一 类 ， 然 后 计算 mn 
类 两 两 间 的 距离 (类 之 间 的 距离 有 多 种 定义 方法 ) ， 根 据 结果 将 距离 最 近 的 两 类 合并 成 新 的 
一 类 ， 接 着 计算 新 类 与 各 当前 类 的 距离 ， 再 将 距离 最 近 的 两 类 合并 ， 这 样 每 次 减少 一 类 , 直 
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到 所 有 的 样品 都 成 为 一 类 @ 
在 R 软 件 中 ，dist0 函 数 给 出 了 各 种 距离 的 计算 结果 ， 其 调用 格式 为 : 
dist(x, method = "euclidean", diag = FALSE, upper = FALSE, p = 2) 
说 明 : method 表 示 计 算 距 离 的 方法 ， 默 认 值 为 euclidean ( 欧 氏 ) 距离 ;diag 是 逻辑 变量 ， 
当 diag=TRUE 时 ， 输 出 距离 矩阵 对 角 线 上 的 距离 ;， upper 也 是 逻辑 变量 ， 当 upper=TRUE 时 ， 输 
出 距离 矩阵 上 三 角 部 分 ( 默认 仅 输 出 下 三 角 和 矩阵 ) 。 
定义 类 与 类 之 间 的 距离 有 许多 方法 ， 主 要 有 以 下 七 种 : 
@ 类 平均 法 ( average Linkage ) ; 
重心 法 (centroid method ) ; 
中 间距 离 法 (median method ) ; 
最 长 距离 法 ( complete method ) ; 
最 短 距离 法 (single method ) ; 
离 差 平方 和 法 ( ward method ) ; 
Mecquitty 相 似 法 ( Mcquitty method ) 。 
各 类 方法 计算 方式 不 同 ， 有 学 者 推荐 采用 离 差 平方 和 法 或 最 短 距离 法 。 
利用 R 语 言 的 hclust0 函 数 就 可 完成 系统 聚 类 分 析 ， 其 基本 调用 格式 如 下 : 
hclust (d, method = "complete", members=NULL) 
说 明 : d 是 由 “dist” 构 成 的 距离 结构 ，method 是 系统 聚 类 的 方法 ( 默认 地 是 最 长 距离 
法 ) 具体 说 明 见 R 的 帮助 。 
例 : 设 有 5 个 产品 ， 每 个 产品 测 得 一 项 质量 指标 x， 其 值 如 下 : 1，2，4.5，6，8， 试 用 最 
短 距离 法 、 最 长 距离 法 、 中 间距 离 法 、 离 差 平方 和 法 分 别 对 5 个 产品 按 质量 指标 进行 分 类 。 
解 R 程 序 如 下 : 
> | 
> dim(x)<-c(5, 1) 
> d<-dist (x) 
> hcl<-hclust (d, "single") 
> hc2<-hclust (d, "complete") 
> hc3<-hclust (d, "median") 
> hc4<-hclust (d, "ward") 


> opar<-par (mfrow=c (2, 2)) 
> plot (hcl, hang=-1);plot (hc2, hang=-1) 
> plot (hc3, hang=-1);plot (hc4, hang=-1) 
> par (opar) 
R 程 序 执行 的 结果 见 图 7.19。 可 见 ， 四 种 分 类 方法 结果 一 致 ， 都 将 第 1，2 个 分 在 一 类 ， 其 
余 在 第 二 类 。 


加 http://wenku.baidu.com/view/96d4730bbalaa8114431d90c.html 


276 | 大 数据 导论 : 关键 技术 与 行业 应 用 最 佳 实践 
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图 7.19 ” 聚 类 图 


7.5.3 判别 分 析 


判别 分 析 是 一 种 可 用 于 判断 样品 所 属 类 型 的 统计 分 析 方 法 。 判 别 分 析 的 目的 是 对 已 知 归 
类 的 数据 建立 由 数值 指标 构成 的 归 类 规则 ， 然 后 把 这 些 规则 应 用 到 未 知 归 类 的 样品 中 去 。 常 
见 的 判别 方法 有 Fisher 判 别 法 和 距离 判别 法 等 。 

Fisher 判 别 法 的 基本 思想 9 是 投影 ， 将 k 组 m 维 数据 向 某 个 方向 投影 ， 使 得 投影 后 组 与 组 之 
间 尽 可 能 地 分 开 ( 借助 于 一 元 方差 分 析 的 思想 衡量 组 与 组 之 间 是 否 分 开 ) 。 距 离 判 别 法 (或 
称 直观 判别 法 ) 的 基本 思想 是 2&: 根据 样品 和 总 体 距离 的 远近 ， 判 断 属 于 哪个 总 体 ， 距 离 最 
近 的 就 将 它 判 为 属于 那个 总 休 。 

首先 要 用 命令 : 
>library (MASS) 

加 载 MASS 宏 包 ， 再 用 函数 lda0 就 可 完成 Fisher 判 别 分 析 ， 甚 基本 调用 格式 如 下 : 
ldal(formula, data,**, subset, na.action) 

说 明 : formula 用 法 为 groups ~ x1+x2+...,group 表 明 总 体 来 源 ; x1,x2,.…. 表 示 分 类 指标 ; 
subset 指 明 训练 样本 。 上 有 具体 说 明 见 R 帮 助 。 

Fisher 于 1936 年 发 表 的 间 尾 花 (Dis ) 数据 被 广泛 地 作为 判别 分 析 的 例子 ， 数 据 是 对 3 
种 ( species ) 功 尾 花 : 刚毛 芒 尾 花 ( setosa ) 、 变 色 昔 尾 花 (versicolor ) 、 弗 吉 尼 亚 阅 尾 花 
(virginica ) 各 抽取 一 个 容量 为 530 的 样本 ， 测 量 其 花 划 长 ( Sepal.Lenth ) 、 花 苯 宽 ( Sepal. 
Width ) 、 花 瓣 长 (Petal.Lenth ) 、 花 为 宽 ( Petal.Width ) ， 单 位 为 mm。 试 调用 R 内 置 文件 中 
的 iris 数 据 进行 判别 分 析 。 


> data (iris) 


> attach (iris) 


> names (iris) 


©® http://wenku.baidu.com/view/652a988071fe910ef12df840.html 
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[1] "Sepal.Length" "Sepal.Width" "Petal.Length" "Petal.Width" 
[5] "Species™ 


> iris.lda <- ldalSpecies ~ Sepal.Length + Sepal.Width+Petal.Length + 
Petal .Width) 
> iris.lda 


Call: 
lda(Species ~ Sepal.Length + Sepal.Width + Petal.Length + Petal.Width) 


Prior probabilities of groups: 
setosa versicolor virginica 
0.3333333 0.3333333 0.3333333 


Group means: 
Sepal.Length Sepal.Width Petal.Length Petal.Width 
0 


setosa 3.428 1.462 0.246 
versicolor 5.936 2.770 4.260 1.326 
virginica 6.588 2.974 5.552 2.026 


Coefficients of linear discriminants: 

LD2 
Sepal.Length 0.8293776 0.02410215 
Sepal.Width 1.5344731 2.16452123 
Petal.Length -2.2012117 -0.93192121 
Petal.Width -2.8104603 2.83918785 


Proportion of trace: 
LD1 LD2 
0.9912 0.0088 
> iris.pred=predict (iris.lda) $ class 


> table (iris.pred, Species) 


Species 
iris.pred ~ setosa versicolor virginica 
setosa 50 
versicolor 0 48 1 
virginica 0 2 49 


结果 说 明 。 

@ Group means: 包含 了 每 组 的 平均 向 量 ; 

@ Coefficients of linear discriminants: 线性 判别 系数 ; 

@ Proportion oftrace: 表明 了 第 判别 式 对 区 分 各 组 的 贡献 大 小 ; 

@ Species: 表明 将 原始 数据 代入 线性 判别 函数 后 的 判别 结果 ，setosa 组 没有 错 判 ， 
versicolor 有 两 个 错 判 ，virginica 只 有 一 个 错 判 。 


7.5.4” 主 成 分 分 析 


PCA 的 目标 是 用 一 组 较 少 的 不 相关 变量 代替 大 量 相关 变量 ， 同 时 尽 可 能 保留 初始 变量 的 

信息 ， 这 些 推导 所 得 的 变量 称 为 主 成 分 ， 它 们 是 观测 变量 的 线性 组 合 。 如 第 一 主 成 分 为 : 
PC =aX, +a,X,+...+arX, (7-5) 

它 是 k 个 观测 变量 的 加 权 组 合 ， 对 初始 变量 集 的 方差 解释 性 最 大 。 第 二 主 成 分 也 是 初始 
变量 的 线性 组 合 ， 对 方差 的 解释 性 排 第 二 ， 同 时 与 第 一 主 成 分 正 交 ( 不 相关 ) 。 后 面 每 一 个 
主 成 分 都 最 大 化 它 对 方差 的 解释 程度 ， 同 时 与 之 前 所 有 的 主 成 分 都 正 交 。 理 论 上 来 说 ， 可 以 
选取 与 变量 数 相 同 的 主 成 分 ， 但 从 实用 的 角度 来 看 ， 都 希望 能 用 较 少 的 主 成 分 来 近似 全 变量 
集 。 下 面 看 一 个 简单 的 示例 。 

数据 集 USJudgeRatings 包 含 了 律师 对 美国 高 等 法 院 法 官 的 评分 。 数 据 框 包含 43 个 观测 ，12 
个 变量 。 表 7.12 列 出 了 所 有 的 变量 。 
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表 7.12 ”USJudgeRatings 数 据 集中 的 变量 


变量 描述 变量 描述 
CONT 律师 与 法 官 的 接触 次 数 PREP 审理 前 的 准备 工作 
INTG | 法 官 正直 程度 FAMI 对 法 律 的 熟 稳 程 度 
DMNR | 风度 ORAL 口头 裁决 的 可 靠 度 
DILG | 勤 怨 度 WRIT 书面 裁决 的 可 靠 度 
CFMG | 案例 流程 管理 水 平 PHYS 体能 

DECI | 决策 效率 RTEN 是 否 值得 保留 


(1 ) 判断 主 成 分 的 个 数 

以 下 是 一 些 可 用 来 判断 PCA 中 需要 多 少 个 主 成 分 的 准则 : 

@ 根据 先 验 经 验 和 理论 知识 判断 主 成 分 数 ; 

@ 根据 要 解释 变量 方差 的 积累 值 的 阅 值 来 判断 需要 的 主 成 分 数 ; 

@ 通过 检查 变量 间 kXk 的 相关 系数 矩阵 来 判断 保留 的 主 成 分 数 。 

最 常见 的 是 基于 特征 值 的 方法 。 每 个 主 成 分 都 与 相关 系数 矩阵 的 特征 值 相 关联 ， 第 一 
主 成 分 与 最 大 的 特征 值 相关 联 ， 第 二 主 成 分 与 第 二 大 的 特征 值 相关 联 ， 依 此 类 推 。Kaiser- 
Harris 准 则 建议 保留 特征 值 大 于 1 的 主 成 分 ,特征 值 小 于 1 的 成 分 所 解释 的 方差 比 包含 在 单个 变 
量 中 的 方差 更 少 。Cattell 碎 石 检验 则 绘制 了 特征 值 与 主 成 分 数 的 图 形 。 这 类 图 形 可 以 清晰 地 
展示 图 形 弯曲 状况 ， 在 图 形变 化 最 大 处 之 上 的 主 成 分 都 可 保留 。 最 后 ， 你 还 可 以 进行 模拟 ， 
依据 与 初始 矩阵 相同 大 小 的 随机 数据 矩阵 来 判断 要 提取 的 特征 值 。 若 基于 真实 数据 的 某 个 特 
征 值 大 于 一 组 随机 数据 矩阵 相应 的 平均 特征 值 ， 那 么 该 主 成 分 可 以 保留 。 该 方法 称 作 平行 分 
析 ( 详 见 Hayton 、Allen 和 Scarpello 的 “Factor Retention Decisions in Exploratory Factor Analysis: A 
Tutorial on Parallel Analysis”，2004 ) 。 利 用 fa.parallel0 函 数 ， 可 以 同时 对 三 种 特征 值 判 别 准 
则 进行 评价 。 对 于 11 种 评分 ( 删 去 了 CONT 变 量 ) ， 代 码 如 下 : 
>1ibrary (psych) 


>fa.parallel (USJudgeRatings[, -1], fa = "pc", n.iter=100,show.legend = 
FALSE, main = "Scree plot with parallel analysis") 
代码 生成 图 形 见 图 7.20， 展 示 了 基于 观测 特征 
值 的 碎 石 检验 ( 由 线段 和 x 符号 组 成 ) 、 根 据 100 个 
随机 数据 矩阵 推导 出 来 的 特征 值 均值 ( 虚线 ) ， 
以 及 大 于 1 的 特征 值 准则 (y=1 的 水 平 线 ) 。 
三 种 准则 表明 选择 一 个 主 成 分 即 可 保留 数 
据 集 的 大 部 分 信息 。 下 一 步 是 使 用 principal0 函 
数 挑选 出 相应 的 主 成 分 。 
(2 ) 提取 主 成 分 
之 前 已 经 介绍 过 ， principal() 函 数 可 以 根 0 xx 
据 原始 数据 矩阵 或 者 相关 系数 矩阵 做 主 成 分 分 5 
析 。 格 式 为 : Component Number 
Principal (r，nfactors=，rotate=，scores=) 图 7.20 评价 美国 法 官 评分 中 要 保留 的 主 成 分 个 数 


Scree plot with parallel analysis 


eigen values of principal components 
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其 中 : 

@ r 是 相关 系数 矩阵 或 原始 数据 矩阵 ; 

@ nfactors 设 定 主 成 分 数 ( 默认 为 1 ) ; 

@@ rotate 指 定 旋转 的 方法 [默认 最 大 方差 旋转 ( varimax ) ]; 
@@ Scores 设 定 是 否 需要 计算 主 成 分 得 分 (默认 不 需要 ) 。 
使 用 以 下 代码 可 获取 第 一 主 成 分 。 


> pc <- Principal (USJudgeRatings[, -1], nfactors = 1, score = TRUE) 


> Be 

Principal Components Analysis 
Call: principall(r = USJudgeRatings[, -1], nfactors = 1, scores = TRUE) 
Standardized loadings (pattern matrix) based upon correlation matrix 


PC1 h2 
INTG 0.92 0.84 0.1565 
DMNR 0.91 0.83 0.1663 
DILG 0.97 0.94 0.0613 
CEMG 0.96 0.93 0.0720 
DECI 0.96 0.92 0.0763 
PREP 0.98 0.97 0.0299 
FAMI 0.98 0.95 0.0469 
ORAL 1.00 0.99 0.0091 
WRIT 0.99 0.98 0.0196 
PHYS 0.89 0.80 0.2013 
RIEN 0.99 0.97 0.0275 


Pc1 
SS loadings 10.13 
Proportion Var 0.92 


此 处 ， 输 入 的 是 没有 CONT 变 量 的 原始 数据 ， 并 指定 获取 一 个 未 旋转 的 主 成 分 。 由 于 PCA 
只 对 相关 系数 矩阵 进行 分 析 ， 在 获取 主 成 分 前 ， 原 始 数据 将 会 被 自动 转换 为 相关 系数 矩阵 。 

PC1 栏 包含 了 成 分 载荷 ， 指 观测 变量 与 主 成 分 的 相关 系数 。 如 果 提 取 不 止 一 个 主 成 分 ， 
那么 还 将 会 有 PC2 、PC3 等 栏 。 成 分 载荷 ( component loadings ) 可 用 来 解释 主 成 分 的 含义 。 此 
处 可 以 看 到 ， 第 一 主 成 分 (PC1 ) 与 每 个 变量 都 高 度 相 关 ， 也 就 是 说 ， 它 是 一 个 可 用 来 进行 
一 般 性 评价 的 维度 。 

h2 栏 指 成 分 公 因子 方差 一 一 主 成 分 对 每 个 变量 的 方差 解释 度 。u2 栏 指 成 分 惟一 性 一 一 方 
差 无 法 被 主 成 分 解释 的 比例 ( 1-h2 ) 。 例 如 ， 体 能 (PHYS ) 80% 的 方差 都 可 用 第 一 主 成 分 来 
解释 ，20% 不 能 。 相 比 而 言 ， PHYS 是 用 第 一 主 成 分 表示 性 最 差 的 变量 。 

SS loadings 行 包含 了 与 主 成 分 相关 联 的 特征 值 ， 指 的 是 与 特定 主 成 分 相关 联 的 标准 化 后 的 
方差 值 ( 本 例 中 ， 第 一 主 成 分 的 值 为 10 ) 。 最 后 ，Proportion Var 行 表示 的 是 每 个 主 成 分 对 整 
个 数据 集 的 解释 程度 。 此 处 可 以 看 到 ， 第 一 主 成 分 解释 了 11 个 变量 92% 的 方差 。 


7.5.5 ”因子 分 析 

EFA 的 目标 是 通过 发 掘 隐藏 在 数据 下 的 一 组 较 少 的 、 更 为 基本 的 无 法 观测 的 变量 ,来 解 
释 一 组 可 观测 变量 的 相关 性 。 这 些 虚拟 的 、 无 法 观测 的 变量 称 作 因子 。 ( 每 个 因子 被 认为 可 
解释 多 个 观测 变量 间 共 有 的 方差 ， 因 此 准确 来 说 ,它们 应 该 称 作 公共 因子 。 ) 

模型 的 公式 为 : 


Xi=aF tabt+...+a,F, +U, (T7686) 
其 中 大 是 第 个 可 观测 变量 (i=1,.…….,k) ,三 是 公共 因子 (j=1,.…,p ) ， 并 且 p<k。U 是 天 变 


量 独 有 的 部 分 ( 无 法 被 公共 因子 解释 ) 。a; 可 认为 是 每 个 因子 对 复合 而 成 的 可 观测 变量 的 贡献 值 。 
虽然 PCA 和 EFA 存 在 差异 ， 但 是 它们 的 许多 分 析 步 又 都 是 相似 的 。 为 阐述 EFA 的 分 析 过 
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程 ， 我 们 用 它 来 对 六 个 心理 学 测验 间 的 相关 性 进行 分 析 。112 个 人 参与 了 六 个 测验 ,包括 非 
语言 的 普通 智力 测验 ( general ) 、 画 图 测验 ( picture ) 、 积 木 图 案 测验 ( blocks ) 、 迷 津 测验 
(maze ) 、 阅 读 测验 (reading ) 和 词汇 测验 ( vocab ) 。 我 们 如 何 用 一 组 较 少 的 、 洪 在 的 心理 
学 因素 来 解释 参与 者 的 测验 得 分 呢 ? 

数据 集 ability.cov 提 供 了 变量 的 协 方差 矩阵 ， 可 用 cov2cor() 函 数 将 其 转化 为 相关 系数 和 矩 
阵 。 数 据 集 没 有 缺失 值 。 
> options (digits = 2) 
> covariances <- ability.cov$cov 
> correlations <- cov2cor (covariances) 


> correlations 


general picture blocks maze reading vocab 
general 1.00 0.47 0.55 0.34 0.58 0.51 


picture 0.47 1.00 0.57 0.19 0.26 0.24 
blocks 0.55 0.57 1.00 0.45 0.35 0.36 
maze 0.34 0.19 0.45 1.00 0.18 0.22 
reading 0.58 0.26 0.35 0.18 1.00 0.79 
vocab 0.51 0.24 0.36 0.22 0.79 1.00 


因为 要 寻求 用 来 解释 数据 的 潜在 结构 ， 可 使 用 EFA 方 法 。 与 使 用 PCA 相 同 ， 下 一 步 工 作 
为 判断 需要 提取 几 个 因子 。 

(1 ) 判断 需 提 取 的 公共 因子 数 

用 fa.parallel0 函 数 可 判断 需 提取 的 因子 数 : 
> library (psych) 
> covariances <- ability.cov$cov 
> correlations <- cov2cor (covariances) 
> fa.parallel (correlations, n.obs = 112, fa = "both", n.iter = 100, main = 
"Scree plots with parallel analysis") 

结果 见 图 7.21。 注 意 ， 代 码 中 使 用 了 fa="both"， 因 子 图 形 将 会 同时 展示 主 成 分 和 公共 因 
子 分 析 的 结果 。 


Scree plots with parallel analysis 


3.0-| —x— PC Actual Data 
Ss PC Simulated Data 

2.5 二 人 —A— FA Actual Data 
-—- FA Simulated Data 


eigenvalues of principal components 
and factor analysis 
| 


Factor/Component Number 
图 7.21 判断 心理 学 测验 需要 保留 的 因子 数 
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在 图 7.21 中 有 几 个 值得 注意 的 地 方 。 如 果 使 用 PCA 方 法 ， 我 们 可 能 会 选择 一 个 成 分 ( 碎 
石 检验 和 平行 分 析 ) 或 者 两 个 成 分 ( 特征 值 大 于 1 ) 。 当 摇摆 不 定时 ， 高 估 因 子 数 通常 比 低估 
因子 数 的 结果 好 ， 因 为 高 估 因 子 数 一 般 较 少 曲解 “真实 ”情况 。 

观察 EFA 的 结果 ， 显 然 需 提取 两 个 因子 。 碎 石 检验 的 前 两 个 特征 值 ( 三 角形 ) 都 在 拐角 处 之 
上 ， 并 且 大 于 基于 100 次 模拟 数据 矩阵 的 特征 值 均值 。 对 于 EFA，Kaiser-Hamis 准 则 的 特征 值 数 大 
于 0， 而 不 是 1。 ( 大 部 分 人 都 没有 意识 到 这 一 点 。 ) 在 图 7.21 中 该 准则 也 建议 选择 两 个 因子 。 

(2 ) 提取 公共 因子 

现在 决定 提取 两 个 因子 ,可 以 使 用 fa0 函 数 获得 相应 的 结果 。fa0 函 数 的 格式 如 下 : 

falr, nfactors=, n.obs=, rotate=, scores=, fm=) 

其 中 : 

@ :是 相关 系数 矩阵 或 者 原始 数据 王 阵 ; 

@ nfactors 设 定 提 取 的 因子 数 ( 默认 为 1) ; 
n.obs 是 观测 数 ( 输入 相关 系数 矩阵 时 需要 填写 ) ; 
rotate 设 定 旋 转 的 方法 (默认 互 变异 数 最 小 法 ) ; 
scores 设 定 是 否 计算 因子 得 分 ( 默认 不 计算 ) ; 
fm 设 定 因子 化 方法 ( 默认 极 小 残 差 法 ) 。 

与 PCA 不 同 ， 提 取 公 共 因 子 的 方法 很 多 : 最 大 似 然 法 (ml ) 、 主 轴 和 迭代 法 (pa ) 、 加 权 
最 小 二 乘法 (wls ) 、 广 义 加 权 最 小 二 乘法 (gls ) 和 最 小 残 差 法 ( minres ) 。 统 计 学 家 青睐 使 
用 最 大 似 然 法 ， 因 为 它 有 良好 的 统计 性 质 。 不 过 有 时 候 最 大 似 然 法 不 会 收 化， 此 时 使 用 主轴 
迭代 法 效果 会 很 好 。 

本 例 使 用 主轴 迭代 法 ( fm = "pa" ) 提取 未 旋转 的 因子 。 执 行 下 述 代码 后 ， 结 果 为 : 


> fa <- fal(correlations, nfactors = 2, rotate = "none", fm = "pa") 


> fa 


Factor Analysis using method = pa 

Call: fa(z = correlations, nfactors = 2, rotate = "none", fm = "pa") 

Standardized loadings (pattern matrix) based upon correlation matrix 
PAl PA2 h2 v2 com 

general 0.75 0.07 0.57 0.432 1.0 

picture 0.52 0.32 0.38 0.623 1.7 

blocks 0.75 0.52 0.83 0.166 1.8 

maze 0.39 0.22 0.20 0.798 1.6 

reading 0.81 -0.51 0.91 0.089 1.7 

vocab 0.73 -0.39 0.69 0.313 1.5 


PAl PA2 
55 loadings 2.75 0.83 
Proportion Var 0.46 0.14 
Cumulative Var 0.46 0.60 


可 以 看 到 ， 两 个 因子 解释 了 六 个 心理 学 测验 60% 的 方差 。 不 过 因子 载荷 阵 的 意义 并 不 太 
好 解释 ， 此 时 使 用 因子 旋转 将 有 助 于 因子 的 解释 。 

(3 ) 因子 旋转 

可 以 使 用 正 交 旋转 或 者 斜 交 旋 转 来 旋转 上 节 中 两 个 因子 的 结果 。 现 在 同时 尝试 下 两 种 方 
法 ,看 看 它们 的 异同 。 首 先 使 用 正 交 旋转 : 
> fa.varimax <- fal(correlations, nfactors = 2, rotate = "varimax", fm = 


"pa") 
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> fa.varimax 


Factor Analysis using method = pa 
Call: £ orrelations, nfactors = 2, rotate = "varimax", fm = "pa") 
ern matrix) based upon correlation matrix 
com 


reading 0.93 0.20 0.91 0.089 1.1 
vocab 0.80 0.23 0.69 0.313 1.2 


案 、 面 图 和 迷宫 这 三 个 在 第 二 因子 上 载荷 较 大 ， 非 语言 的 普通 智力 测量 在 两 个 因子 上 载荷 较 
为 平均 ， 这 表明 存在 一 个 语言 智力 因子 和 一 个 非 语言 智力 因子 。 使 用 正 交 旋转 将 人 为 地 强制 
两 个 因子 不 相关 。 如 果 想 允许 两 个 因子 相关 该 怎么 办 呢 ? 此 时 可 以 使 用 斜 交 转 轴 法 ， 比 如 
promax 用 斜 交 旋 转 提取 因子 : 


> fa.promax <- fal(correlations, nfactors = 2, rotate = "promax", fm = 


"pa") 
> fa.promax 


Factor Analysis using method = pa 

Call: fa(r = correlations, nfactors = 2, rotate = "promax", fm = "pa") 

Standardized loadings (pattern matrix) based upon correlation matrix 
PA PA2 h2 uu2 com 

general 0.36 0.49 0.57 0.432 1.8 

picture -0.04 0-64 0.38 0.623 1.0 

blocks -0.12 0.98 0.83 0.166 1.0 

maze -0.01 0.45 0.20 0.798 1.0 

reading 1.01 -0.11 0.91 0.089 1.0 

vocab = 0.84 -0.02 0.69 0.313 1.0 


PAl PA2 
55 loadings 1.82 1.76 
Proportion Var 0.30 0.29 
Cumulacive Var 0.30 0.60 


Proportion Explained 0.51 0.49 
Cumulative Proportion 0.51 1.00 


With factor correlations of 
PAl PA2 

PR1 1.00 0.57 

PA2 0.57 1.00 


根据 以 上 结果 ， 可 以 看 出 正 交 旋转 和 和 斜 交 旋 转 的 不 同 之 处 。 对 于 正 交 旋 转 ， 因 子 分 析 的 
重点 在 于 因子 结构 矩阵 ( 变量 与 因子 的 相关 系数 ) 。 而 对 于 斜 交 旋 转 ， 因 子 分 析 会 考虑 三 个 
矩阵: 因子 结构 和 矩阵、 因子 模式 矩阵 和 因子 关联 矩阵 。 

因子 模式 矩阵 即 标准 化 的 回归 系数 矩阵 。 它 列 出 了 因子 预测 变量 的 权重 。 因 子 关 联 和 矩阵 
即 因子 相关 系数 矩阵 。 

在 用 promax 提 取 因 子 时 ，PA1 和 PA2 栏 中 的 值 组 成 了 因子 模式 矩阵 。 它 们 是 标准 化 的 回 
归 系 数 ， 而 不 是 相关 系数 。 注 意 ， 和 矩阵 的 列 仍 用 来 对 因子 进行 命名 ( 虽然 此 处 存在 一 些 争 
论 ) 。 同 样 可 以 得 到 一 个 语言 因子 和 一 个 非 语言 因子 。 

因子 关联 矩阵 显示 两 个 因子 的 相关 系数 为 0.57， 相 关 性 很 大 。 如 果 因 子 间 的 关联 性 很 
低 ， 可 能 需要 重新 使 用 正 交 旋 转 来 简化 问题 。 

因子 结构 矩阵 ( 或 称 因子 载荷 阵 ) 没有 被 列 出 来 ， 但 可 以 使 用 公式 F=P*Phi 很 轻松 地 得 
到 它 ， 其 中 F 是 因子 载荷 阵 ，P 为 因子 模式 矩阵 ，Phi 为 因子 关联 矩阵 。 下 面 的 函数 即 可 进行 该 
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乘法 运算 : 
> fsm <- function(oblique) { 
if (class (oblique) [2]=="fa" & is.null(obliqueS$SPhi)) { 
warning("Object doesn't look like oblique EFA") 
} else { 
P <- unclass (oblique$loading) 
F <- P %*% oblique$Phi 
colnames (F) <- c("PAl", "PA2") 


return (F) 


++++ + + + + 


对 上 面 的 例子 使 用 fm 函数 ， 可 以 得 到 : 


> fsm(fa.Promax) 


BR1 PA2 
general 0.64 0.69 
Picture 0.33 0.61 
blocks 0.44 0.91 
maze 0.25 0.45 
reading 0.95 0.47 
vocab 0.83 0.46 


现在 可 以 看 到 变量 与 因子 间 的 相关 系数 。 将 它们 与 正 交 旋转 所 得 因子 载荷 阵 相 比 ， 会 发 
现 该 载荷 阵列 的 噪音 比较 大 ， 这 是 因为 之 前 允许 潜在 因子 相关 。 虽 然 斜 交 方 法 更 为 复杂 ,但 
模型 将 更 符合 真实 数据 。 使 用 factor.plot0 或 fa.diagram0 函 数 ， 可 以 绘制 正 交 或 者 斜 交 的 结果 ， 
如 图 7.22。 来 看 以 下 代码 : 


> factor.plot (fa.promax, labels = rownames (fa.promax$loadings)) 


Factor Analysis 
© 二 
一 十 。 
locks 
| 
oo 
© . 
S pictufe 
Q 。 
E S| me general 
| 
口 
© 
[= . 
vocab 。 


PA1 
图 7.22 ”数据 集 ability.cov 中 心理 学 测验 的 两 因子 图 形 
使 用 以 下 代码 : 
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fa.diagram(fa.promax, simple=FALSE) 
生成 的 图 形 如 图 7.23 所 示 。 若 使 simple=TRUE， 那 么 将 仅 显 示 每 个 因子 下 最 大 的 载荷 ， 以 
及 因子 间 的 相关 系数 。 这 类 图 形 在 有 多 个 因子 时 十 分 实用 。 


Factor Analysis 
reading 
ab 3 
vocab < _ 
0.8 aD 


picture 2 
ed Ze 
maze > 
图 7.23 ”数据 集 ability.cov 中 心理 学 测验 的 两 因子 斜 交 旋转 结果 图 
(4 ) 因子 得 分 
相 比 PCA，EFA 并 不 那么 关注 计算 因子 得 分 。 在 fa0 函 数 中 添加 score=TRUE 选 项 ( 原始 数 
据 可 得 时 ) 便 可 很 轻松 地 获得 因子 得 分 。 另 外 还 可 以 得 到 得 分 系数 ( 标准 化 的 回归 权重 ) 
它 在 返回 对 象 的 weights 元 素 中 。 
对 于 ability.cov 数 据 集 ， 通 过 二 因子 斜 交 旋转 法 便 可 获得 用 来 计算 因子 得 分 的 权重 : 


>fa.promax$weights 


[1,1] [,2] 
general 0.080 0.210 
picture 0.021 0.090 
blocks 0.044 0.695 
maze 0.027 0.035 
reading 0.739 0.044 
vocab 0.176 0.039 


与 可 精确 计算 的 主 成 分 得 分 不 同 ， 因 子 得 分 只 是 估计 得 到 的 。 它 的 估计 方法 有 多 种 ，fa0) 
函数 使 用 的 是 回归 方法 。 


上 7.6 R 在 大 数据 处 理 中 的 应 用 


R 是 一 个 用 于 统计 计算 和 统计 制图 的 优秀 工具 ， 具 有 Unix、Linux、MacOS 和 Windows 版 
本 ， 均 可 以 免费 下 载 以 及 使 用 。R 强 大 的 功能 以 及 开放 性 、 灵 活性 使 得 其 在 大 数据 处 理 中 的 
应 用 受到 广大 数据 处 理 、 分 析 人 员 的 喜爱 ，R 已 经 成 为 大 数据 处 理应 用 中 一 款 举足轻重 的 软 
件 。 下 面 从 R 处 理 大 数据 以 及 R 与 Hadoop 交 互 两 方面 对 R 在 大 数据 处 理 中 的 应 用 加 以 介绍 。 


7.6.1 _R 处 理 大 数据 


R 将 所 有 的 对 象 都 存储 在 虚拟 内 存 中 。 对 于 大 部 分 人 而 言 ， 这 种 设计 可 以 带 来 很 好 的 交 
互 体验 ， 但 如 果 要 处 理 大量 的 数据 ， 这 就 会 影响 程序 的 运行 速度 ， 带 来 和 内 存 相关 的 错误 。 
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具体 的 内 存 限制 取决 于 R 的 版 本 ( 32 位 或 64 位 ) 和 所 使 用 的 操作 系统 。 比 如 ， 以 cannot 
allocate vector of size 开 头 的 错误 信息 通常 都 是 因为 无 法 获得 足够 的 连续 内 存 空间 ， 以 cannot 
allocate vector of length 开 头 的 错误 信息 表示 超过 了 内 存 地 址 的 限制 。 在 处 理 大 量 的 数据 时 ， 应 
该 尽 可 能 地 用 64 位 版 。 无 论 是 什么 版 本 ， 单 个 向 量 中 元 素数 量 的 上 限 都 是 2 147 483 647 ( 详 
见 ?Memory 命 令 的 帮助 ) 。 
在 处 理 大 数据 时 ， 要 考虑 三 个 问题 : 高效 执行 的 程序 ; 将 数据 保存 到 外 部 避免 内 存 问 
题 ; 用 有 针对 性 的 统计 方 法 高 效 地 分 析 海 量 数据 。 
1. 高 效 的 程序 设计 
下 面 是 在 处 理 大 型 数据 时 有 助 于 提升 性 能 的 程序 设计 建议 。 
@ 尽 可 能 地 做 向 量化 计算 。 用 民 内 建 的 函数 来 处 理 向 量 、 和 矩阵 和 列表 ， 而且 要 尽量 避免 
使 用 循环 。 
@@ 用 德 阵 ， 而 不 是 数据 框 。 
@ 在 使 用 read.table() 系 列 函 数 将 外 部 数据 读 取 到 数据 框 中 时 ， 明 确 地 指定 colClasses 和 
nrows， 设 置 comment.char = ""， 并 且 用 "NULL" 标 明 不 需要 的 列 。 这 样 可 降低 内 存 的 
使 用 量 ， 显 著 地 提高 处 理 速度 。 在 将 外 部 数据 读 入 天 阵 时 ， 可 以 用 scan0) 函 数 。 
@ 在 完整 的 数据 集 上 运行 程序 之 前 ， 请 先 用 数据 的 子 集 测试 程序 ， 以 便 优 化 代码 并 消除 bug。 
@ 删除 临时 对 象 和 不 再 需要 的 对 象 。 调 用 rmtlist=ls() 会 从 内 存 中 删除 所 有 的 对 象 ， 得 到 
一 个 干净 的 环境 。 要 删除 特定 的 对 象 ， 可 以 用 rm(objecb。 
在 处 理 大 数据 时 ， 提 高 代码 性 能 也 就 只 能 这 样 。 在 遇 到 内 存 限制 时 ， 还 可 以 将 数据 保存 
到 外 部 存储 器 中 ， 并 使 用 特殊 的 分 析 方 法 。 
2. 在 内 存 、 外 存 中 存储 数据 
有 好 几 个 包 可 以 将 数据 保存 到 R 的 主 内 存 之 外 。 主 要 的 方法 是 将 数据 保存 到 外 部 数据 库 
中 ， 或 是 硬盘 上 的 二 进 制 文件 中 ， 然 后 再 按 需 要 访问 其 中 的 某 个 部 分 。 表 7.13 中 列 出 了 一 些 
有 用 的 包 。 


表 7.13 ”用 于 访问 大 型 数据 集 的 R 包 


提供 了 一 种 数据 结构 ， 可 以 将 数据 保存 到 硬盘 上 ， 但 用 起 来 却 像 是 在 内 存 中 
大 的 人 和 存储 、 访 问 和 操作 。 甜 阵 可 以 分 配 在 共享 内 存 和 内 


1 个 简单 的 key-value 数 据 库 ， 用 字符 串 的 键 值 关联 到 硬盘 上 存储 的 
数据 


ncdf、ncdf4 提供 了 Unidate netCDF 数 据 文件 的 接口 


filehash 


ie、 | 这 些 包 每 一 个 都 可 用 于 访问 相应 的 外 部 关系 型 数据 库 管理 系统 


上 而 介绍 的 这 些 包 都 可 用 于 解决 R 在 保存 数据 时 的 内 存 限制 问题 不 过 ， 在 分 析 大 数据 
时 ， 还 需要 专门 的 方法 以 在 可 接受 的 时 间 内 完成 分 析 。 


3. 用 于 大 数据 的 分 析 包 
R 有 如 下 几 个 用 于 分 析 大 型 数据 的 包 。 
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@ biglm 和 speedglm 包 能 以 内 存 高 效 的 方式 实现 大 型 数据 的 线性 模型 拟 合 和 广义 线性 模型 
拟 合 。 

@ 有 好 几 个 包 是 用 来 分 析 bigmemory 包 生成 的 大 型 矩阵 的 。biganalytics 包 提供 了 k 均 值 
聚 类 、 列 统计 和 一 个 biglm 的 封装 ; bigtabulate 包 提供 了 table0 、split0 和 tapply() 功 能 ; 
bigalgebra 包 提供 了 高 级 的 线性 代数 函数 。 

@ biglars 包 跟 任 配合 使 用 ， 为 在 内 存 中 无 法 放置 的 大 数据 提供 了 最 小 角 回 归 (1least 一 
angleregression ) 、lasso 和 逐步 回归 分 析 。Borbdingnag 包 可 以 处 理 大 数字 ( 大 于 2 的 
1024 次 方 的 数 ) 。 

在 任何 编程 语言 中 ， 处 理 CB 级 和 TB 级 的 数据 都 是 挑战 。 关 于 R 中 这 方面 方法 的 更 多 信 

息 ， 可 以 查看 CRAN 上 的 这 个 Task View: High-Performance and Parallel Computing with R ( cran. 


I-projectorg/web/views/ ) 。 


7.6.2”R 与 Hadoop 交 互 

R 会 把 所 有 的 对 象 读 存 人 虚拟 内 存 中 ， 在 没有 遇 到 大 数据 集 的 情况 下 ， 这 里 的 大 数据 
集中 大 数据 的 数据 容量 通常 是 10 ~ 100GB 或 更 多 ， 且 数据 种 类 包括 结构 化 数据 、 非 结构 化 
数据 等 多 种 类 型 ， 此 时 这 种 设计 可 以 提高 与 R 交 互 的 速度 。 但 在 遇 到 大 数据 集 的 情况 下 ， 
这 种 设计 会 使 程序 运行 速度 降低 ， 甚 至 还 会 产生 与 内 存 相 关 的 错误 。 即 便 使 用 64 位 版 的 R， 
向 量 中 的 元 素 个 数 最 大 也 只 能 是 2 147 483 647。 使 用 R 语 言 处 理 大 数据 时 ， 需 要 采用 特殊 的 
方式 。 

目前 ， 通 常 有 两 种 方法 将 R 语 言 与 大 数据 处 理 平 台 相 结合 使 用 。 第 一 种 方法 是 ， 在 
Hadoop 上 用 MapReduce 处 理 PB 、TB 量 级 的 数据 ， 缩 小 数据 容量 到 CB 量 级 ， 然 后 将 其 加 载 到 R 
中 进行 处 理 。 在 R 中 ，GB 级 别 的 数据 可 以 利用 MPI 并 行 处 理 框架 构建 的 集群 计算 。 在 Rmpi 包 
的 基础 上 可 以 实现 各 种 MPI 支 持 的 并 行 编程 模式 。 而 简单 易 用 snow 包 及 其 简化 包装 版 snowfall 
包 则 在 支持 协议 的 多 样 性 上 更 好 。 其 中 ，snow 支 持 SOCKET、MPI、PVM 、NWS 四 种 线程 通信 
协议 ， 如 果 对 MPIT 了 人 解 程度 不 高 或 者 没有 安装 ， 也 可 以 直接 使 用 SOCKET 方 式 快速 上 手 。 而 简 
化 包装 版 的 snowfall 包 则 使 得 并 行 化 的 计算 如 同 普通 编程 一 样 简单 。 由 于 这 些 包 是 为 R 而 扩展 
出 来 的 ， 所 以 跟 R 的 矢量 式 编程 思想 能 无 颖 结合 ， 用 户 只 需要 将 程序 用 矢量 化 语言 描述 出 来 
(比如 R 的 apply 系 列 函数 或 简单 矩阵 运算 ) ， 再 移植 到 snowfall 并 行 计算 平台 上 几乎 就 是 零 成 
本 。 第 二 种 方法 是 ， 直 接 使 用 支持 Hadoop 的 R 包 ， 在 R 中 操作 存放 在 HDFS 中 的 数据 ， 并 利用 R 
语言 完成 MapReduce 算 法 ， 用 来 替代 Java 的 MapReduce 实 现 。RHadoop 包 使 得 R 语 言 具有 处 理 高 
达 TB 甚 至 PB 级 的 大 数据 的 能 力 。 在 GitHub 社 区 可 以 找到 该 项 目 与 开源 实现 代码 。RHadoop 包 
含 三 个 R 包 ， 分别 是 rhdfs，rmr 以 及 rHBase， 分 别 对 应 Hadoop 系 统 架 构 中 的 HDFS， MapReduce 
和 HBase 三 个 部 分 。 除 RHadoop 包 之 外 ， 还 有 从 R 中 进行 Hive 查 询 的 RHive 包 ， 能 够 直接 从 Hive 
中 进行 查询 。 

将 R 和 Hadoop 结 合 起 来 ， 其 既 能 够 利用 Hadoop 分 布 式 MapReduce 计 算 打 破 数据 量 的 限制 ， 
又 能 够 利用 R 中 的 众多 优秀 的 扩展 包 ， 快速 实 现 所 需 的 数据 处 理 和 分 析 ， 是 一 个 值得 推荐 的 
大 数据 处 理 的 最 佳 实践 。 
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7.7 练习 


1. 根据 表 7.14 提 供 的 经 济 数据 ， 
(1) 试 画 出 散 点 图 ， 判 断 国民 收入 (了 ) 与 消费 量 ( 民 ) 是 否 有 线性 关系 ; 
(2 ) 求 出 7 尖 于 X 的 一 元 线性 回归 方程 ; 
(3 ) 对 方程 作 显著 性 检验 ; 
(4) 现 测 得 1981 年 消费 量 和 3441， 试 给 出 1981 年 国民 收入 的 预测 值 及 相应 的 区 间 估 计 
( a=0.05) 。 
表 7.14 我国 钢材 消费 量 及 国民 收入 


钢材 消费 量 万 吨 ) | 国民 收入 ( 亿 元 ) 
1765 2286 
1762 2311 
1960 2003 
1902 2435 
2013 2625 
2446 2948 
2736 3155 
2825 3372 


2. 胃 癌 的 鉴别 表 7.15 是 从 病例 中 随机 抽取 的 部 分 资料 。 这 里 有 3 个 类 别 (group ) : 胃癌 
(ca ) 、 萎 缩 性 胃炎 ( ga ) 和 非 骨 炎 患 者 ( non ) 。 从 每 个 总 体 抽 5 个 病人 ， 每 人 化 验 4 项 生化 
指标 : 血清 铜 蛋白 ( 马 ) 、 蓝 色 反应 ( 豆 ) 、 尿 乙酸 (五 ) 和 中 性 硫化 物 (再 ) 。 试 对 胃癌 
检验 的 生化 指标 值 用 Fisher 判别 的 方法 进行 判别 归 类 。 

表 7.15 胃癌 检验 的 生化 指标 值 


尿 乙酸 X。 中 性 硫化 物 X。 
3 20 11 
2 245 134 10 40 
胃癌 患者 3 200 167 12 好 
4 170 150 3 8 
5 100 167 20 14 
6 225 125 14 
党 130 100 6 12 
萎缩 性 胃炎 患者 | 8 150 117 6 
9 120 133 10 26 
10 160 100 S 10 
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( 续 表 ) 
类 别 “| 序号 | ”血清 网 蛋白 X， 蓝 色 反 应 X。 尿 乙酸 Xs 中 性 硫化 物 X。 
| 11 185 115 5 19 
| 12 | 170 125 6 | 4 
非 胃 炎 患 者 13 165 142 5 3 
12 
2 
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第 8 章 


大 数据 用 于 预测 和 决策 


21 世 纪 是 数据 化 的 时 代 ， 所 有 企业 都 面临 着 共同 的 机 遇 与 挑战 ， 如 何 才 能 将 海量 的 数 
据 转化 为 财富 和 客户 价值 ? 另 一 个 重要 问题 是 ， 企 业 如 何 利用 这 些 数据 激发 下 一 波 的 业务 创 
新 ? 而 数据 的 真正 价值 来 自 于 有 效 使 用 数据 而 作出 的 决策 。 企 业 的 经 营 决策 多 达 数 百 万 个 ， 
这 些 决 策 对 企业 与 客户 的 关系 以 及 企业 的 发 展 前 景 会 产生 影响 。 高 端 先进 的 大 数据 技术 与 手 
段 使 得 人 们 能 够 进行 准确 地 分 析 、 预 测 ， 确 保 公 司 的 决策 能 应 对 日 益 增 加 的 复杂 性 ， 跟 上 日 
益 加 快 的 步伐 


上 8.1 利用 分 析 技 术 作 决策 的 发 展 历史 和 展望 


8.1.1 利用 分 析 技 术 作 决策 的 发 展 历程 

决策 是 人 们 为 了 实现 特定 的 目标 ， 根 据 客观 的 可 能 性 ， 在 占有 一 定 信息 和 经 验 的 基础 
上 ， 借 助 一 定 的 工具 、 技 巧 和 方法 ， 对 影响 目标 实现 的 诸 因素 进行 分 析 、 计 算 、 判 断 和 选 优 
后 ， 对 未 来 的 行动 作出 决定 。 决 策 是 人 们 在 政治 、 经 济 、 技 术 和 日 常生 活 中 普遍 存在 的 一 种 
行为 ， 也 是 管理 中 经 常 发 生 的 一 种 活动 。 

在 决策 过 程 中 ,决策 者 面临 的 主要 问题 是 : 对 决策 问题 中 的 风险 进行 科学 分 析 并 采取 有 
效 的 方法 来 降低 或 消除 这 些 风 险 ; 对 冲突 的 多 种 目标 进行 科学 全 面 的 权衡 ， 从 可 行 的 方案 中 
选 出 满意 的 决定 。 信 息 是 人 们 用 来 克服 风险 的 一 种 资源 ， 夺 取 机 遇 是 决策 者 的 目的 ， 相 关 资 
源 是 实现 决策 的 物质 保证 。 因 此 ， 信 息 、 机 遇 与 资源 是 决策 过 程 的 三 大 要 素 。 决 策 支持 系统 
的 中 心 任务 就 是 协助 决策 者 统筹 与 协调 好 这 三 要 素 间 的 关系 。 故 而 ,决策 分 析 的 科学 性 与 决 
策 模式 的 正确 性 是 决策 成 功 的 关键 。 

早 在 20 世 纪 50、60 年 代 ， 计 算 机 就 开始 被 一 些 佼佼 者 用 来 改善 决策 了 。 其 中 杰出 的 计算 
机 学 家 杰 伊 ， 弗 莱 斯 特 在 剑桥 提倡 用 计算 机 引导 商业 管理 系统 ， 他 开发 了 一 种 基于 计算 机 模 
拟 的 分 析 和 解决 问题 的 方法 ， 这 个 名 为 系统 动力 学 的 方法 能 够 帮助 管理 者 理解 业务 流程 与 决 
策 关 系 。1961 年 弗 莱 斯 特 针对 系统 动力 学 出 版 了 一 本 《工业 动力 学 》， 该 书 对 系统 动力 学 的 
发 展 具有 巨大 影响 。20 世 纪 70 年 代 ， 弗 莱 斯 特 在 麻 省 理工 学 院 的 学 生 德 内 拉 … 梅 多 斯 应 用 系 
统 动力 学 理论 设计 了 一 个 全 球 模型 ， 并 以 此 为 基础 编写 了 《增长 的 极限 》 一 书 来 预测 人 口 增 
和 、 经 济 学 和 地 球 环境 的 发 展 趋势 。 
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小 托马斯 沃 森 (Thomas Watson Jr.，1914 一 1993 ) ，IBM ( 国际 商用 机 器 公司 ) 的 开拓 
者 ， 有 史 以 来 最 伟大 的 资本 家 ， 于 1952 年 聘请 工程 师 研制 出 IBM 的 第 一 台 可 存储 程序 的 计算 
机 IBM 701。 这 个 将 IBM 的 商业 机 器 远景 定位 为 计算 机 的 决策 启动 了 商业 信息 技术 革命 ， 同 时 
开启 了 大 型 企业 决策 管理 的 先河 。 

同一 时 期 ， 在 加 利 福 尼 亚 州 ， 工 程 师 威廉 * 费 尔 和 数学 家 厄 尔 . 艾 萨 克 这 两 位 优秀 的 流 
程 管理 学 家 ， 在 运筹 学 领域 开始 了 自己 的 生涯 。1956 年 两 人 创立 了 费 埃 哲 公 司 ， 他 们 认为 
一 个 志 在 卓越 的 组 织 ， 它 的 经 营 管理 决策 应 该 是 有 条 理 的 和 以 数据 驱动 的 ， 而 不 是 仅仅 遵循 
于 直觉 和 共识 。 他 们 的 理想 是 建立 供 企业 使 用 的 、 基 于 计算 机 的 数学 工具 ， 加 强 经 营 决 策 ， 
使 流程 管理 成 为 实现 更 好 的 经 营 绩效 的 基础 。 在 费 埃 哲 成 立 3 年 后 ， 他 们 开始 采用 消费 信贷 来 
验证 他 们 的 想法 。 随 着 社会 上 经 营 活 动 越 来 越 计算 机 化 ， 信 用 卡 的 使 用 日 益 广泛 ， 这 也 使 得 
企业 开始 搜集 到 有 关 客 户 行为 的 数据 。 费 埃 哲 推出 了 第 一 个 用 于 信用 评分 的 模型 ， 这 个 模型 
根据 历史 数据 来 分 析 客 户 以 往 的 行为 ， 从 而 预测 他 们 的 信用 ， 并 依据 个 人 银行 存款 余额 及 付 
款 记 录 等 相关 变量 的 分 析 ， 得 出 信用 评分 来 预测 人 们 的 还 贷 能 力 ， 这 种 方法 得 出 的 结论 远 远 
胜 于 银行 家 作出 的 决策 。 

20 世 纪 80 年 代 初 ， 美 国 旧金山 大 学 的 管理 学 教授 韦 里 克 提 出 了 SWOT 模型 ， 即 态势 分 
析 法 。 该 方法 经 常 被 用 于 企业 战略 制定 、 竞 争 对 手 分 析 等 场合 。 来 自 于 麦肯锡 咨询 公司 的 
SWOT 分 析 ， 包 括 分 析 企 业 的 优势 ( Strength ) 、 机 会 (Opportunity ) 、 劣 势 ( Weakness ) 与 
威胁 (Threats ) 。 所 以 ， 实 际 上 SWOT 分 析 是 综合 和 概括 企业 内 、 外 部 条 件 各 方面 的 内 容 ， 
进而 对 组 织 面临 的 机 会 、 优 劣势 和 威胁 进行 分 析 的 一 种 方法 。SWOT 分 析 能 够 帮助 企业 把 行 
动 和 资源 聚集 在 自己 的 强项 以 及 有 最 多 机 会 的 地 方 。 除 了 SWOT 模 型 之 外 ， 可 同时 用 于 战略 
分 析 与 战略 决策 的 还 有 其 他 模型 ， 例 如 GE 和 矩阵、 波士顿 矩阵 等 。 企 业经 营 成 败 的 关键 是 战略 
决策 ， 它 关系 到 企业 的 生存 与 发 展 。 另 外 ， 企 业 中 管理 决策 、 业 务 决 策 也 同样 是 企业 不 可 或 
缺 的 部 分 。 事 实证 明 ， 正 确 的 决策 能 够 使 企业 往 正确 的 方向 前 进 ， 提 高 竞争 力 和 适应 环境 的 
能 力 ， 取 得 良好 的 经 济 效益 。 反 之 ， 失 误 的 决策 则 会 给 企业 带 来 巨大 的 损失 ， 严 重 者 甚至 会 
导致 企业 破产 。 

时 至 21 世 纪 ， 云 计算 、 社 会 化 媒体 以 及 信息 爆炸 时 代 产 生 的 海量 数据 开始 为 企业 战略 决 
策 提供 了 科学 依据 ， 体 现在 精英 智慧 、 依 靠 经 验 判 断 、 自 上 而 下 的 传统 战略 论 开 始 走向 大 数 
据 决策 。 依 据 大 数据 进行 决策 ， 从 数据 中 获取 价值 ， 让 数据 主导 决策 ， 是 一 种 前 所 未 有 的 决 
策 方式 ， 并 正在 推动 着 人 类 信息 管理 准则 的 重新 定位 。 随 着 大 数据 分 析 和 预测 性 分 析 对 管理 
决策 影响 力 的 逐渐 加 大 ， 依 靠 直觉 做 出 决定 的 状况 将 会 被 彻底 地 改变 。 

澳大利亚 电力 集团 Energex 能 够 预测 各 地 电力 需求 ， 从 而 确定 应 该 在 何 处 建设 电网 ; 联合 
爱迪生 电力 公司 则 能 预测 在 用 电 高 峰 时 可 能 出 现 的 系统 故障 。 大 数据 预测 在 教育 领域 也 在 发 
挥 作用 ， 如 美国 公立 大 学 系统 可 预测 学 生 的 辍学 率 ， 并 根据 其 预测 结果 来 积极 管理 学 生 ， 以 
降低 辍学 率 。 事 实 上 ， 亚 利 桑 那州 立 大 学 、 亚 拉巴 马 大 学 、 爱 因 堆 芬 科技 大 学 、 艾 奥 瓦 州立 
大 学 等 都 在 用 计算 机 预测 学 生 的 辍学 率 。 目 前 一 些 企业 已 经 成 功 地 商业 化 运作 教育 中 的 大 数 
据 ， 在 高 等 教育 领域 建立 起 最 大 的 跨 校 学 习 数据 库 。 通 过 这 些 海量 数据 ， 能 够 看 到 学 生 的 分 
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数 、 出 勤 率 、 辍 学 率 和 保留 率 的 主要 趋势 。 通 过 使 用 100 多 万 名 学 生 的 相关 记录 和 700 万 个 课程 
记录 ， 这 些 公司 的 软件 能 够 让 用 户 探测 性 地 知道 导致 辍学 和 学 习 成 绩 表 现 不 良 的 警告 性 信和 号。 
此 外 ， 该 软件 还 允许 用 户 发 现 那些 导致 无 谓 消 耗 的 特定 课程 ， 并 且 看 出 哪些 资源 和 干预 是 最 成 
功 的 。 

当然 大 数据 的 作用 远 远 不 止 这 一 点 ， 在 医疗 、 交 通 、 能 源 、 材 料 、 商 业 和 服务 等 行业 领 
域 ， 甚 至 在 新 闻 传媒 领域 ， 也 都 在 以 大 数据 为 发 展 契 机 ， 大 数据 对 于 管理 者 的 决策 有 着 重大 
的 参考 价值 。 企 业 是 经 济 系统 的 发 动机 。 积 极地 拥抱 大 数据 技术 变革 ， 改 善 企业 决策 水 平 ， 
是 时 代 发 展 的 要 求 ， 是 社会 进步 的 要 求 。 根 据 戴 尔 公 司 ( Dell ) 和 微软 公司 ( Microsoft ) 的 
调查 ， 美 国有 超过 60% 的 企业 认为 需要 使 用 大 数据 技术 ， 而 接近 一 半 的 企业 打算 在 未 来 增加 
大 数据 方面 的 预算 。 大 数据 决策 越 来 越 受 到 各 行 各 业 的 关注 。 第 25 届 全 国医 药 经 济 信息 发 布 
会 以 “ 洞 见 ， 预测 一 一 信息 让 决策 更 优 ” 为 主题 拉 开 了 序幕 。 论 坛 上 ， 标 点 信息 公司 与 嘉宾 
们 分 享 了 25 年 来 对 医药 市 场 研究 的 专业 积累 、 精 选 经 典 案例 ， 共 同 挖掘 信息 研究 对 企业 新 药 
研发 立项 和 营销 业绩 提升 的 正 能 量 。 会 上 嘉宾 认为 ， 通 过 对 产品 信息 、 销 售 数据 等 方面 的 信 
息 进 行 量化 分 析 ， 能 帮助 企业 看 得 更 细 、 更 远 。 中 国电 子 信息 产业 发 展 研究 院 云 计 算 产 业 研 
究 中 心 总 经 理 吴 李 知 在 《哈佛 商业 评论 》 上 发 表 了 文章 ， 介 绍 了 企业 决策 者 如 何 收集 数据 和 
利用 大 数据 作 决 策 的 方法 。 在 互联 网 行业 和 金融 行业 可 以 运用 大 数据 对 客户 的 信用 风险 进行 
鉴别 。 大 数据 还 能 够 预测 民航 领域 诸如 机 票 打折 、 班 机 延误 等 信息 ; 帮助 纽约 市 政府 找 出 发 
生火 灾 和 井盖 爆炸 概率 较 高 的 地 点 ; 帮助 快递 企业 确定 合适 的 行驶 路 线 ， 从 而 减少 等 候 的 
时 间 ; Zynga 利用 数据 分 析 帮 助 其 修改 游戏 产品 ;商场 采用 大 数据 分 析 产 品 之 间 存 在 的 关联 
性 …… 这 一 切 都 对 我 们 的 决策 、 行 为 、 习 惯 产生 着 影响 。 

毫 无 疑问 ， 大 数据 决策 正在 以 不 可 阻挡 之 势 扑 面 而 来 。 


8.1.2 大 数据 决策 的 展望 


近年 来 ， 云 计算 技术 迅速 发 展 ,移动 互联 网 、 物 联网 应 用 大 规模 爆发 ， 那 些 由 社交 媒 
体 、 视 频 、 音 频 、 邮 件 、 文 档 信 息 和 网 页 所 产生 的 海量 数据 以 惊人 的 速度 在 增长 。 据 相关 权 
威 机 构 预 测 ， 过 去 两 年 生成 的 数据 占 整 个 人 类 历史 数据 总 量 的 90%， 而 全 球 数据 总 量 每 过 两 
年 就 会 增长 一 售 ， 预 计 到 2020 年 人 类 拥有 的 数据 总 量 将 会 达到 惊人 的 35 万 亿 GB。 在 这 些 新 增 
的 数据 中 ， 绝 大 部 分 是 传统 技术 难以 处 理 的 非 结构 化 数据 ， 比 如 音 视 频 、 图 片 、 网 页 等 ， 这 
些 数据 大 概 占 总 数据 的 百 分 之 九 十 。 未 来 将 是 一 个 以 PB ( 1024TB ) 为 单位 的 ， 结 构 与 非 结构 
数据 信息 的 新 时 代 。 

随 着 大 数据 时 代 的 到 来 ， 计 算 机 系统 的 数据 分 析 和 数据 挖掘 功能 日 渐 强大 ， 决 策 所 依据 
的 信息 全 面 性 越 来 越 高 ， 根 据 数据 作 决 定 的 理性 决策 在 迅速 增多 ， 而 以 往 “ 拍 脑袋 ”盲目 决 
策 的 情况 正在 急剧 减少 。 同 时 ， 由 于 云 计算 的 兴起 ， 人 们 得 以 高 效率 地 驾驭 海量 数据 ， 生 产 
有 价值 的 决策 信息 。 在 未 来 ， 基 于 大 数据 的 决策 将 生成 更 多 新 奇 有 效 的， 解决 重大 问题 的 方 
案 。 伴 随 着 大 数据 决策 的 发 展 ， 也 许 以 前 单纯 依靠 人 类 自身 判断 力 的 领域 ， 最 终 都 将 被 普遍 
改变 甚至 取代 。 
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上 8.2 统计 预测 和 决策 概述 


人 们 很 早 就 开始 利用 统计 方法 对 数据 系统 进行 分 析 挖掘 ， 进 而 预测 和 决策 。 统 计 预 测 与 
决策 给 各 行业 的 发 展 走势 提供 重要 的 辅助 引导 ,在 此 ， 笔 者 简单 介绍 统计 预测 与 决策 的 基本 
概念 和 常见 方法 。 


8.2.1 统计 预测 的 作用 及 方法 


统计 预测 可 归属 于 预测 方法 的 范畴 ， 是 利用 科学 的 统计 方法 研究 事物 在 未 来 发 展 变化 的 
趋势 及 方向 的 预测 方法 ， 可 以 进行 定量 预测 ， 同 时 计算 概率 置信 区 间 。 这 种 预测 包括 数学 计 
算 和 直接 判断 。 统 计 预 测 的 方法 论 性 质 和 统计 学 的 方法 论 性 质 是 相同 的 。 

在 市 场 经 济 条 件 下 ， 预 测 的 作用 主要 是 通过 每 个 企业 或 行业 内 部 的 决策 以 及 行动 计划 来 
体现 的 。 统 计 预 测 作用 的 大 小 往往 取决 于 预测 结果 所 能 产生 的 效益 的 多 少 。 影 响 预测 作用 的 
因素 有 多 种 ， 如 预测 费用 的 高 低 、 预 测 方法 的 难 易 程 度 、 预 测 结果 的 精确 程度 等 。 预 测 费用 
主要 包括 资料 的 收集 、 整 理 和 使 用 费 ， 计 算 费用 ， 设 计 预 测 程序 的 费用 和 工作 人 员 的 劳务 费 
用 等 。 不 难看 出 ， 预 测 费用 的 高 低 直接 影响 预测 结果 ， 而 预测 方法 的 难 易 程度 又 直接 影响 着 
预测 费用 的 高 低 。 至 于 预测 结果 ， 一 般 而 言 ， 精 确 度 高 的 预测 结果 比 精确 度 低 的 作用 更 大 。 
虽然 花费 更 多 的 费用 、 时 间 有 可 能 得 到 更 好 的 预测 结果 ， 但 使 用 这 部 分 额外 的 代价 去 取得 额 
外 的 精确 性 是 否 值 得 ， 也 是 一 个 值得 思考 的 问题 。 

对 于 统计 预测 方法 来 说 ， 最 基本 的 作用 是 将 历史 资料 中 并 存 的 基本 轨迹 与 误差 分 开 ， 用 
以 研究 其 形态 的 变化 。 通 常 是 采取 对 资料 进行 拟 合 某 种 模型 的 方法 把 轨迹 分 离 出 来 的 ， 这 种 
拟 合 模型 要 尽 可 能 全 面 而 精确 地 反映 出 有 规律 性 的 轨迹 。 误 差 又 可 称 为 残 差 或 剩余 项 ， 呈 随 
机 性 ， 残 差 的 随机 性 研究 是 统计 预测 的 一 项 重要 内 容 。 

统计 预测 的 方法 按照 性 质 划 分 可 大 致 分 为 三 大 类 ， 定 性 预测 法 、 回 归 预 测 法 和 时 间 序 
列 法 。 

1. 定性 预测 

定性 预测 是 一 种 以 逻辑 判断 为 主 的 预测 方法 。 预 测 者 依靠 熟悉 的 业务 知识 、 丰 富 的 经 验 
以 及 具有 综合 分 析 能 力 的 其 他 专家 ， 根 据 已 掌握 的 直观 材料 和 历史 资料 ， 以 及 个 人 的 经 验 和 
分 析 判 断 能 力 ， 对 事物 的 未 来 发 展 做 出 性 质 和 程度 上 的 判断 ， 接 着 ， 再 通过 一 定形 式 来 综合 
各 方面 的 意见 ， 作 为 预测 未 来 的 主要 依据 。 定 性 预测 主要 有 两 个 特点 ， 一 为 着 重 对 事物 发 展 
的 性 质 进行 预测 ， 主 要 依据 人 的 经 验 以 及 分 析 能 力 ;二 为 着 重 对 事物 发 展 的 趋势 、 方 向 和 重 
大 转折 点 进行 预测 。 

定性 预测 的 优点 在 于 注重 事物 发 展 在 性 质 方面 的 预测 ， 具 有 很 大 的 灵活 性 ， 充 分 发 挥 人 
的 主观 能 动 性 ， 并 且 简单 迅速 ， 节 约 时 间 和 金钱。 但 是 定性 项 测 易 受 主观 因素 的 影响 ， 缺 乏 
对 事物 发 展 作出 数量 上 的 精确 描述 。 

2. 回归 预测 法 

回归 预测 法 是 一 种 用 来 研究 变量 之 间 的 相互 关系 的 数理 统计 方法 ， 应 用 回归 分 析 从 一 个 
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或 多 个 变量 的 值 去 预测 因 变量 的 值 。 回 归 预 测 运 用 样本 数据 确认 其 变量 的 相关 性 ， 再 进行 误 
差 检 验 ， 最 后 运用 模型 进行 预测 分 析 。 在 这 种 预测 方法 中 ， 因 变量 的 预测 值 要 由 并 进 的 自 变 
量 的 值 来 推 , 故而 该 方法 考虑 了 时 间 因素 和 变量 间 的 因果 关系 。 回 归 预 测 法 一 般 可 分 为 非 线 
性 回归 预测 法 、 一 元 线性 回归 预测 法 以 及 多 元 线性 回归 预测 法 等 。 


(1 ) 首先 根据 预测 需求 来 明确 自 变量 及 因 变 量 。 

通常 确定 了 预测 的 需求 是 什么 之 后 ， 就 可 以 明确 因 变量 。 比 如 预测 的 需求 是 下 一 年 农 作 
物 的 产量 ,那么 产量 Y 就 是 因 变 量 。 而 农作物 品种 、 施 肥 量 、 气 候 等 影响 因 变 量 ( 产量 Y ) 的 
相关 因素 就 称 为 自 变 量 ， 同 时 还 要 从 中 选 出 具有 主导 影响 的 因素 。 

(2 ) 接着 建立 回归 预测 的 模型 。 

在 自 变量 与 因 变 量 的 历史 统计 资料 计算 基础 上 ， 建 立 一 个 回归 分 析 方程 ， 也 就 是 回归 分 
析 预 测 模型 。 

(3 ) 然后 是 相关 分 析 。 

回归 分 析 是 用 数理 统计 分 析 来 处 理 具有 因果 关系 的 自 变量 和 因 变 量 的 。 使 回归 分 析 预 测 
模型 有 意义 的 前 提 是 自 变 量 和 因 变 量 之 间 的 确 存 在 着 某 种 关系 。 所 以 ， 进 行 回 归 分 析 首 要 解 
决 的 问题 是 明确 自 变量 的 因素 和 因 变 量 的 预测 对 象 有 无 相关 性 ， 相 关 程度 怎样 ， 以 及 有 多 大 
的 把 握 判 断 它们 之 间 的 相关 程度 。 通 常 都 是 先 对 变量 进行 相关 分 析 ， 求 出 相关 关系 。 相 关 程 
度 则 主要 根据 相关 系数 的 大 小 来 进行 判断 。 

(4 ) 再 次 计算 预测 误差 ,检验 回归 预测 模型 。 

一 般 回归 方程 要 进行 各 种 检验 ， 并 且 计 算得 到 的 误差 要 比较 小 ， 这 样 回归 预测 模型 才能 
够 用 于 实际 预测 ， 才 可 以 将 回归 方程 作为 预测 模型 并 进行 预测 。 

(5 ) 最 后 计算 并 确定 预测 值 。 

根据 检验 后 确定 的 回归 预测 模型 对 预测 值 进行 计算 ,并 综合 分 析 该 预测 值 ， 然 后 确定 最 
后 的 预测 值 。 

另外 ,使 用 回归 预测 法 的 过 程 中 还 要 注意 一 些 问题 ， 如 变量 之 间 应 存在 相关 关系 ; 现象 
之 间 的 依存 关系 使 用 定性 分 析 进 行 判 断 ; 需 运 用 合适 的 数据 资料 等 。 

3. 时 间 序列 法 

利用 按时 间 顺 序 排列 的 数据 预测 未 来 ， 是 一 种 常用 的 方法 。 事 物 的 发 展 变化 趋势 能 延续 
至 未 来 ， 常 以 时 间 序 列 的 平稳 性 或 准 平稳 性 反映 在 随机 过 程 理 论 中 。 准 平稳 性 即 经 过 某 种 数 
据 处 理 ( 如 一 次 或 多 次 差分 运算 ) 后 ， 时 间 序 列 呈 平稳 的 性 质 。 

多 种 因素 影响 着 时 间 序 列 的 变化 ， 总 的 来 说 可 以 概括 为 四 种 变动 因素 : 周期 变动 
(C) ， 以 某 一 时 间 间 隔 为 周期 的 周期 性 变动 ， 诸 如 复苏 与 危机 的 交替 ; 长 期 趋势 (T) ,在 
整个 预测 期 内 事物 所 呈现 出 渐 增 或 渐 减 的 总 倾向 ; 季节 变动 (S ) ， 以 一 年 为 周期 的 周期 变 
动 ， 如 旅游 行业 销售 额 的 季节 性 波动 ; 不 规则 变动 因素 (I) 。 

时 间 序 列 预测 所 需要 的 是 序列 本 身 的 历史 数据 ， 因 此 这 类 方法 应 用 得 非常 广泛 ， 具 体 
方法 有 时 间 序 列 分 解法 、 指 数 平滑 法 、 移 动 平均 法 、 趋 势 外 推 法 、 自 适应 过 滤 法 、 灰 色 预 测 
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法 、 平 稳 时 间 序列 预测 法 、 状 态 空间 模型 等 。 

由 于 现代 预测 方法 的 发 展 ， 使 得 各 种 方法 往往 交叉 运用 、 相 互 渗透 ， 很 难 做 出 明确 地 划 
分 ， 因 此 ， 上 述 分 类 并 不 是 绝对 的 。 同 时 在 选择 预测 方法 时 ， 还 应 当 考 虑 适用 性 、 经 济 性 和 
精确 性 。 根 据 具体 的 情况 综合 考虑 ， 从 而 选择 出 最 合适 的 预测 方法 。 


8.2.2 ”统计 决策 的 概述 及 方法 


统计 决策 就 是 为 了 解决 现实 中 出 现 的 问题 ， 实 现 某 些 特定 的 目标 ， 根 据 客观 的 可 能 性 ， 
在 充分 搜集 并 全 面 分 析 了 相关 信息 之 后 ， 提 出 解决 问题 和 实现 目标 的 各 种 可 行 性 方案 ， 根 据 
评定 标准 和 准则 ， 选 取 合 适 的 方案 并 实施 。 作 为 解决 问题 达到 目标 的 方法 和 途径 ,决策 具有 
未 来 性 、 选 择 性 和 实践 性 这 三 大 特征 。 同 时 决策 还 是 一 项 系统 工程 ， 其 基本 因素 包含 四 个 : 
决策 主体 、 体 现 决策 主体 利益 和 愿望 的 决策 目标 、 决 策 对 象 和 决策 环境 。 

完整 的 统计 决策 必须 经 历 以 下 几 个 步 又。 首先 是 确定 决策 目标 ， 有 效 决策 的 前 提 是 具有 
合理 的 目标 ， 目 标 是 决策 活动 的 出 发 点 和 归宿 ， 也 是 评价 的 依据 。 其 次 是 拟订 备 选 方案 ， 可 
建立 模型 ， 要 善于 抓 住 关 键 因素 和 变量 、 参 数 及 逻辑 关系 ， 最 终 选 定 参数 和 各 种 变量 的 数学 
公式 ， 有 时 还 需 建立 模糊 模型 及 随机 模型 ; 若 不 方便 建立 模型 ， 也 可 利用 另外 的 数学 分 析 方 
法 帮助 决策 。 再 次 是 方案 抉择 ， 在 分 析 各 个 可 行 方案 时 给 出 相应 的 分 数 评判 ， 只 需要 按照 选 
择 的 要 求 和 标准 ， 由 决策 者 最 终 拍板 确定 即 可 。 最 后 是 方案 实施 ， 也 是 最 重要 的 一 环 ， 确 定 
方案 后 ， 组 织 人 力 、 物 力 、 财 力 等 各 种 资源 ， 实 施 决策 方案 。 在 实施 过 程 中 要 注重 监督 和 及 
时 反馈 信息 ， 以 便 随 时 调整 方案 ， 做 出 更 符合 客观 实际 的 决策 方案 。 

统计 决策 方法 可 分 为 风险 型 决策 方法 、 贝 叶 斯 决策 方法 、 不 确定 型 决策 方法 以 及 多 目标 
决策 方法 等 。 

风险 型 决策 ， 面 临 的 问题 应 该 是 明确 的 ， 然 而 在 未 来 的 决定 因素 中 ， 对 于 可 能 出 现 的 结 
果 并 不 能 充分 肯定 ， 在 这 种 情况 下 ， 根 据 若干 个 可 行 方案 执行 后 出 现 的 不 同 结果 和 结果 出 
现 的 概率 作出 决策 。 因 此 ， 这 样 的 决策 会 有 相应 的 风险 ， 而 决策 者 也 要 承担 一 定 的 风险 。 
但 是 既然 知道 了 结果 和 概率 ， 就 可 以 通过 损益 矩阵 分 析 法 和 决策 树 法 等 来 帮助 决策 者 进行 量 
化 决策 。 

利用 贝 叶 斯 定理 ， 求 得 后 验 概率 ， 并 据 此 进行 的 决策 方法 ， 称 之 为 贝 叶 斯 决策 方法 。 

不 确定 型 决策 与 风险 型 决策 在 条 件 和 状态 方面 都 比较 相似 ， 不 同 的 是 各 种 方案 将 来 会 
出 现 哪 一 种 结果 这 种 概率 无 法 预测 。 在 思想 方法 上 ， 不 确定 型 决策 靠 他 人 的 经 验 推 新 ， 或 
者 靠 主观 判断 ， 都 具有 一 定 程度 的 随意 性 。 当 然 ， 不 确定 型 决策 也 可 以 采用 计算 公式 来 帮助 
决策 。 

统计 决策 中 的 目标 往往 不 止 一 个 ， 例 如 企业 目标 决策 中 ， 企 业 不 仅 要 追求 经 济 目标 ， 还 
要 承担 非 经 济 目标 ， 以 及 社会 责任 等 。 类 似 这 样 的 企业 目标 决策 问题 均 具有 和 多 目标 的 特点 ， 
可 以 把 这 类 决策 方法 称 为 多 目标 决策 方法 。 

在 激烈 的 市 场 竞争 中 ， 科 学 的 统计 决策 起 着 由 目标 到 结果 的 中 间 媒 介 作用 ， 发 挥 着 避免 
盲目 性 和 减少 风险 性 的 导向 效应 。 
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上 8.3 大 数据 预测 决策 的 关键 


预测 是 人 们 通过 对 客观 事实 历史 和 现状 进行 科学 的 调查 和 分 析 ， 由 过 去 和 现在 去 推测 未 
来 ， 由 已 知 去 推测 未 知 ， 从 而 揭示 客观 事实 未 来 发 展 的 趋势 和 规律 。 预 测 作为 一 种 手段 ， 能 
为 人 们 提供 关于 事物 未 来 的 信息 ， 为 决策 者 提供 科学 的 决策 依据 。 在 决策 全 过 程 的 每 一 个 阶 
段 都 离 不 开 预 测 ， 预 测 贯穿 于 决策 的 全 过 程 。 

人 们 能 够 预测 的 前 提 是 事物 的 运动 、 变 化 和 发 展 都 呈现 出 一 定 的 规律 性 。 然 而 ， 事 物 的 
规律 通常 以 隐蔽 的 形式 存在 ， 受 创造 性 思维 能 力 、 知 识 经 验 、 对 历史 资料 的 掌握 等 多 方面 因 
素 的 影响 。 要 正确 认识 到 事物 潜在 的 规律 ， 作 出 准确 的 预测 决策 ， 向 来 是 决策 者 的 难题 。 现 
今 ， 大 数据 技术 的 发 展 ， 使 预测 决策 更 为 客观 、 科 学 。 

海量 的 数据 ， 无 论 是 结构 化 、 半 结构 化 或 是 非 结构 化 的 数据 ， 都 使 人 们 对 行业 有 了 可 
能 全 面 分 析 预 测 的 基础 。 决 策 者 可 以 通过 对 这 些 数据 进行 系统 、 全 面 地 分 析 挖掘， 从 而 预测 
未 来 某 些 事件 的 发 生 概率 、 走 势 ， 并 根据 预测 结果 辅助 自己 作出 重大 的 决策 。 对 大 数据 的 分 
析 、 预 测 大 大 降低 了 管理 者 的 主观 判断 风险 ， 客 观 的 数据 使 得 做 出 的 决策 更 具 科 学 性 。 

云 计算 、 大 数据 和 社会 化 媒体 等 技术 提供 了 大 数据 决策 的 技术 手段 。 在 大 数据 时 代 ， 如 
何 利用 大 数据 进行 决策 已 成 为 企业 、 机 构 、 政 府 部 门 等 的 工作 重点 。 

1. 手 握 大 数据 源 


欧洲 消费 者 委员 会 委员 梅 格 莱 纳 ， 库 尼 瓦 说 : “数据 是 一 种 新 型 石油 ”。 在 大 数据 时 
代 ， 数 据 渗透 到 各 行 各 业 之 中 , 已 成 为 企业 的 创新 驱动 力 与 核心 资产 。 企 业 的 核心 竞争 力 将 
取决 于 拥有 数据 的 质量 、 规 模 和 收集 、 处 理 、 分 析 、 运 用 数据 的 能 力 。 数 据 越 多 ， 相 关 度 和 
质量 越 高 ， 找 出 有 用 信息 和 得 出 结论 的 概率 就 越 大 。 而 那些 占有 “大 数据 ”资源 的 先天 优势 
群体 ， 无 疑 在 有 效 利 用 好 数据 ， 打 破 现 有 的 传统 格局 上 更 具有 优势 。 掌 控 数 据 就 能 够 支配 市 
场 ， 也 意味 着 高 额 的 投资 回报 。 据 有 关 数 据 统计 显示 : 在 美国 ， 每 提高 10% 的 数据 智能 化 ， 
服务 以 及 产品 质量 将 提升 14.6%。 但 是 ， 在 大 数据 时 代 进 行 智能 化 决策 分 析 ， 企 业 首先 要 拥 
有 大 数据 源 。 数 据 来 源 除了 企业 的 ERP、HCM、CRM 、0OA 等 系统 内 部 的 数据 外 ， 同 行 资料 甚 
至 应 该 包含 不 同行 业 的 电 商 、 社 交 、 宏 观 经 济 、 上 下 游 、 互 联网 、 物 联网 等 外 部 大 数据 。 事 
实证 明 ， 不 同行 业 的 数据 也 可 能 对 自己 所 在 的 行业 存在 影响 。 如 Twitter 网 根据 Twitter 用 户 的 
集体 情绪 ， 就 能 够 预测 股市 的 涨 跌 。 故 而 要 实现 智能 化 决策 ， 首 先 要 尽 可 能 通过 云 平台 实现 
数据 大 集中 ， 形 成 企业 数据 资产 ， 为 大 数据 决策 做 准备 。 


2. 培养 大 数据 科学 家 


互联 网 上 ,每 一 天 ， 百 度 要 处 理 的 搜索 请 求 大 约 为 数 十 亿 次 ,联通 的 用 户 一 天 上 网 产生 
的 记录 就 能 达到 10 TB， 淘 宝 网 站 会 产生 数 千 万 笔 交易 ， 新 浪 微 博 的 用 户 会 产生 超过 1 亿 条 的 
发 博 量 等 并 且 数 据 已 从 结构 化 数据 转向 非 结 构 化 、 半 结构 化 和 结构 化 混合 型 数据 。 当 拥有 海 
量 的 数据 之 后 ， 如 何 进 行 数据 挖掘 ， 将 数据 转换 为 知识 ， 再 将 知识 付 诸 于 行动 ， 这 成 为 大 数 
据 科学 家 存在 的 意义 和 必然 结果 。 大 数据 科学 家 从 大 量 的 、 不 完全 的 、 有 噪声 的 、 模 糊 的 、 随 
机 的 实际 数据 中 ， 提 取 隐 含 在 其 中 的 、 人 们 事先 不 知道 但 又 是 潜在 有 用 的 信息 和 知识 。 经 提炼 
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分 析 后 采用 先进 的 技术 进行 可 视 化 展示 ， 使 得 决策 者 能 够 清晰 地 快速 洞悉 数据 背后 隐藏 的 商业 
价值 ， 从 而 运筹 帷 晨 ,决胜 千里 。 因 此 ， 组 建 包括 大 数据 科学 家 、 大 数据 工程 师 、 大 数据 分 析 
师 、 商 业 情 报 分 析 师 以 及 事业 部 用 户 在 内 的 大 数据 科学 家 团队 对 于 大 数据 决策 势 在 必 行 。 

3. 开发 大 数据 预测 分 析 软 件 

在 培养 顶尖 的 大 数据 科学 家 的 同时 ， 还 必须 不 断 开 发 适应 时 代 需 要 的 更 新 、 更 好 的 软件 ， 
因为 大 数据 科学 家 在 预测 分 析 时 ， 要 借助 预测 分 析 软 件 来 评估 分 析 模型 和 规则 。 预 测 分 析 软 件 
通过 整合 统计 分 析 和 机 器 学 习 算 法 来 发 挥 作用 。 目 前 ，IBM SPSS 和 SAS 是 两 个 数据 科学 家 常用 
的 分 析 软 件 ，R 项 目 则 是 一 个 非常 流行 的 开源 工具 。 如 果 数 据 量 大 到 “大 数据 ”的 程度 ， 那 么 
可 能 还 需要 一 些 专门 的 大 数据 处 理 平台 如 ( Hadoop ) 或 数据 库 分 析 机 ( 如 Oracle Exadata ) 等 。 
据 预 测 ， 未 来 百 分 之 九 十 的 数据 是 传统 技术 难以 处 理 的 非 结 构 化 数据 ， 诸 如 音频 、 视 频 、 图 
片 、 网 页 等 ， 因 而 需要 开发 更 多 适用 于 处 理 半 结构 化 数据 和 非 结构 化 数据 的 软件 。 

对 大 数据 的 预测 决策 给 企业 决策 管理 带 来 了 极 大 的 惊喜 ， 在 这 信息 爆发 的 时 代 ， 谁 能 领 
先 掌 握 大 数据 技术 ， 谁 就 有 可 能 在 竞争 中 领先 一 大 步 。 成 功 的 企业 除了 要 有 好 的 决策 管理 方 
法 外 ， 企 业 本 身 也 应 该 具备 良好 的 原则 。 

诺 贝 尔 奖 获得 者 赫 伯 特 ' 西蒙 ( Herbert* A. Simon ) 说 “管理 就 是 决策 ”。 每 个 企业 都 
存在 决策 ， 决 策 是 决定 管理 工作 成 败 的 关键 。 在 大 数据 时 代 ， 如 何 成 为 决策 领先 的 企业 呢 ? 
我 们 有 以 下 建议 。 

首先 ， 决 策 领先 企业 是 系统 化 和 量化 的 。 

企业 系统 化 和 量化 不 仅仅 是 数学 计算 和 使 用 自动 化 来 更 快 、 更 好 地 作出 决策 ， 它 也 与 管 
理 企业 决策 的 更 好 收益 有 关 。 决 策 收益 应 该 体现 在 这 样 几 个 方面 ， 决 策 的 准确 性 ， 即 企业 作 
出 僵 利 的 、 有 针对 性 的 决策 ; 灵活 性 ， 公 司 可 以 在 繁重 的 工作 中 作出 决策 ; 一 致 性 ， 企 业 在 
不 同 的 渠道 、 业 务 部 门 和 地 区 以 相同 的 方式 作出 决策 ; 成 本 ， 公 司 能 够 实施 自动 决策 ， 减 少 
工作 步骤 和 降低 运营 成 本 ; 速度 ， 公 司 可 以 实时 作出 决策 ， 加 快 业务 流程 。 唯 有 实现 系统 和 
量化 的 决策 管理 ， 企 业 才 能 始终 保持 领先 地 位 。 

其 次 ， 决 策 领先 企业 是 不 断 学 习 和 提高 的 。 

企业 应 用 大 数据 决策 ， 除 了 企业 领导 必须 有 与 时 俱 进 的 观念 ， 能 够 充分 认识 到 应 用 大 数 
据 决策 的 好 处 ， 还 应 该 建设 以 大 数据 决策 为 基础 的 顶层 设计 ， 打 造 企 业 为 学 习 型 组 织 ， 并 建 
立 制度 、 平 台 和 流程 ， 形 成 知识 不 断 成 长 的 企业 文化 。 或 者 与 外 部 数据 公司 合作 ， 比 如 百度 
已 初步 形成 一 个 海量 知识 数据 汇集 、 互 动 与 共享 体系 ， 为 知识 提供 、 搜 索 、 分 享 、 利 用 创造 
了 高 效率 平台 ， 通 过 海量 离散 知识 提供 者 和 海量 知识 需求 者 相 匹 配 ， 改 变 了 学 习 活 动 的 时 空 
限制 ， 使 企业 在 培训 中 不 断 学 习 和 提高 。 

最 后 ， 决 策 领先 企业 是 大 胆 且 富 有 创意 的 。 

全 球 最 大 的 家 用 电器 和 电子 产品 零售 集团 百思买 提出 了 利用 客户 细 分 来 改变 经 营 形式 ， 
这 被 认为 是 一 个 革命 性 创举 。 实 际 上 ， 百思买 的 高 层 管理 人 员 在 看 到 客户 细 分 后 的 客户 体验 
差异 之 前 ， 他 们 几乎 没有 考虑 过 要 改变 经 营 的 形式 ， 在 所 有 的 渠道 提供 个 性 化 体验 。 加 拿 大 
最 大 的 零售 连锁 企业 加 拿 大 泰 尔 开发 了 信贷 风险 预测 模型 ， 该 模型 能 根据 信用 卡 客户 的 购买 
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信息 ， 对 客户 进行 高 风险 和 低 风险 的 区 分 。 事 实证 明 ， 加 拿 大 泰 尔 运 用 对 客户 群 的 分 类 作出 
了 更 好 的 运营 决策 。 这 些 案例 告诉 我 们 大 胆 和 创意 是 决策 领先 企业 至 关 重 要 的 因素 。 

在 大 数据 爆发 的 时 代 ， 各 行 各 业 唯 有 善于 利用 数据 资源 ， 顺 应 时 代 发 展 的 趋势 ， 掌 握 大 
数据 决策 的 关键 ， 才 能 在 大 数据 的 浪潮 中 处 于 领先 ， 立 于 不 败 之 地 。 


上 8.4 大 数据 分 析 用 于 商业 的 预测 决策 


现今 铺天盖地 的 大 数据 开始 充斥 在 各 行 各 业 中 ， 无 论 是 医疗 器 械 、 零 售 业 、 物 流 业 还 是 
电力 通信 、 人 金融 服务 ， 几 乎 每 个 行业 领域 ， 伴 随 着 移动 互联 网 、 移 动 终端 和 数据 感应 器 的 出 
现 ， 所 产生 的 数据 都 以 超出 人 们 想象 的 速度 在 迅速 增长 ， 伴 随 而 生 的 大 数据 技术 也 开始 飞速 
发 展 。 与 此 同时 大 数据 分 析 用 于 商业 预测 决策 的 成 功 案例 也 越 来 越 多 。 


8.4.1 乐购 一 一 分 析 客 户 消费 信息 

乐购 是 英国 领先 的 零售 商 ， 并 跻身 于 全 球 三 大 零售 企业 之 一 ， 就 营业 收入 而 言 ， 乐 购 是 
网 上 最 大 的 百货 服务 商 。 

乐购 的 成 功 之 处 在 于 早 在 20 世 纪 90 年 代 中 期 公司 就 累计 储存 了 超过 一 百 万 老 客户 的 数 
据 ， 并 利用 分 析 工 具 了 解 将 这 些 数据 作为 和 服务 于 个 性 化 的 需要 。 在 1994 年 ， 乐 购 雇用 了 一 
家 小 型 分 析 公 司 Dunnhumby，Dunnhumby 帮 助 乐 购 从 收集 到 的 客户 数据 中 挖掘 出 了 更 多 的 商 
业 价值 。 而 这 些 收 集 的 数据 主要 是 从 会 员 卡 中 获得 。 乐 购 会 员 卡 追踪 并 保存 每 个 成 员 的 每 一 
笔 交易 ， 随 着 每 笔 交 易 的 完成 ， 客 户 和 相关 购物 的 详细 信息 不 断 增 长 。 从 获取 的 数据 中 ， 乐 
购 了 解 到 客户 最 常 去 的 乐购 店 的 地 方 ， 客 户 买 了 什么 ， 客 户 多 久 得 一 次 乐购 ， 客 户 的 年 龄 段 
和 生活 方式 等 。 通 过 开辟 网 络 市 场 ， 乐 购 服务 的 普及 和 数据 收集 分 析 有 了 质 的 飞跃 发 展 。 乐 
购 的 电子 商务 团队 制作 了 一 个 “最 爱 列表 ”系统 ， 能 根据 客户 的 购买 记录 向 客户 展示 他 们 最 
喜爱 的 商品 ， 从 而 省 却 了 浏览 几 千 种 商品 目录 的 时 间 。 乐 购 使 用 分 析 学 精确 描述 了 顾客 的 购 
物 模式 ， 调 整 客户 购物 体验 ， 同 时 提高 了 公司 的 盘 利 能 力 。 

现在 ， 乐 购 收集 大 数据 客户 信息 用 于 分 析 。《 经 济 学 家 》 报 道 认 为 ， 乐 购 的 会 员 卡 项 目 
从 130 万 会 员 购买 55000 种 产品 的 行为 中 ,产生 了 令 人 无 法 想象 的 庞大 数据 。 根 据 大 数据 信息 
进行 客户 分 析 、 客 户 细 分 ， 建 立 预测 模型 ， 预 测 客户 对 产品 的 需求 量 和 未 来 的 销售 情况 。 


8.4.2 ”Netflix 一 一 了 解 客 户 的 真正 需求 


Netflix 是 美国 一 家 在 线 影片 租赁 公司 ， 提 供 互 联网 随 选 流 媒体 播放 、 定 额 制 DVD 、 蓝 光 
光盘 在 线 出 租 业 务 。Netflix 将 百 视 达 公司 作为 主要 竞争 对 手 。 百 视 达 是 一 家 曾 击败 许多 租赁 
店 的 视频 连锁 店 ， 其 分 店 遍布 美国 各 地 。 

Netflix 一 开始 就 借助 于 互联 网 ， 使 客户 群 快速 增长 。 客 户 在 互联 网 上 完成 注册 、 下 订 
单 、 通 过 邮政 服务 派发 DVD。 同 时 Netflix 公 司 利用 预测 分 析 技 术 ， 了解 客户 希望 购买 或 租赁 
什么 电影 和 电视 节目 。 通 过 数学 技巧 和 商业 敏感 性 持续 改善 客户 体验 感 。 最 终 Netflix 通 过 使 
用 它 的 推荐 引擎 一 一 Cinematch 超 过 了 百 视 达 公 司 。 这 款 引擎 运行 专 有 的 预测 算法 ， 分 析 客户 
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关于 电影 的 购买 模式 和 评价 等 级 ， 预 测 客户 的 喜好 并 优化 库存 状况 。Netflix 回 馈 给 老 客户 的 
是 给 予 更 多 他 们 想 要 的 东西 和 选择 。Netflix 利 用 客户 每 一 次 购买 获得 的 信息 ， 建 立 了 一 个 专 
有 的 档案 。Netflix 的 成 功 在 于 发 现 客户 需求 ， 了 解 客户 希望 的 获得 方式 ， 满 足 客 户 的 需求 。 

2013 年 ，Netflix 在 美国 已 拥有 2700 万 订阅 客户 ， 每 天 客户 在 Netflix 上 产生 3000 多 万 个 行 
为 ， 同 时 客户 每 天 还 会 给 出 400 多 万 个 评分 以 及 300 万 次 搜索 请 求 。Netflix 的 工程 师 借 助 网 上 
这 些 数据 进行 分 析 后 ， 发 现 喜 欢 BBC 剧 、 导 演 大 卫 : 芬 奇 和 老 戏 骨 凯 文 ， 史 派 西 的 客户 存 
在 交集 ， 为 此 Netflix 决 定投 巨 资 买 下 BBC 电视 剧 《 纸 牌 屋 》 的 版 权 ， 并 请 来 大 卫 ' 芬 奇 担任 
导演 ， 凯 文史 派 西 担当 男 主角 。《 纸 牌 屋 》 成 为 了 Netflix 网 站 上 有 史 以 来 观看 量 最 高 的 剧 
集 ， 并 红 遍 美国 及 40 多 个 国家 。《 纸 牌 屋 》 开 创 了 大 数据 应 用 在 电视 剧 制作 的 先河 ， 这 是 大 
数据 帮助 人 们 做 出 前 瞻 性 决策 的 实例 之 一 。 


8.4.3 ” 哈 拉 斯 一 一 使 用 客户 数据 


哈 拉 斯 ， 世 界 上 最 大 的 博彩 娱乐 集团 。 哈 拉 斯 的 首席 运营 官 加 里 洛 夫 曼 是 哈 拉 斯 首届 
一 指 的 分 析 师 ， 他 分 析 后 发 现 ， 最 好 的 客户 并 不 是 “拥有 黄金 袖 扣 ， 豪 华 轿车 的 豪赌 者 ”， 
而 是 中 年 的 中 产 阶级 ， 他 们 喜欢 玩 老 虎 机 。 这 些 客户 只 占 总 体 客户 的 26%， 然 而 他 们 却 贡献 
了 82% 的 公司 收入 。 很 明显 ， 如 果 能 够 增加 这 个 客户 群 ， 公 司 的 收入 将 会 碳 升 。 于 是 哈 拉 斯 
推出 了 “Total Gold” 客 户 忠诚 度 项 目 ， 在 客户 玩 老虎 机 时 会 获得 相应 的 积分 ， 根 据 积分 可 以 
兑换 各 种 礼品 、 礼 券 。 

如 今 ， 哈 拉 斯 的 客户 分 析 已 成 为 其 商业 模式 的 核心 ， 它 建立 了 一 个 客户 洞察 团队 ， 专 
门 进行 管理 和 挖掘 客户 数据 ， 哈 拉 斯 的 客户 分 析 能 力 在 同行 业 中 是 无 与 伦比 的 。 哈 拉 斯 有 
一 个 300GB 的 交易 数据 库 ， 是 通过 追踪 数 以 百 万 计 的 个 人 交易 而 获得 的 。 信 息 系统 为 项 目的 
基础 ， 收 集 了 大 量 的 客户 数据 。 再 把 数据 基于 行为 进行 细 分 ， 将 数据 按照 行为 和 收入 划分 ， 
从 中 寻找 挥 金 如 土 的 人 。 通 过 捕获 来 自 多 个 地 点 的 个 人 及 群体 行为 和 消费 模式 的 数据 信息 ， 
预测 客户 的 行为 ， 进 而 进行 各 种 营销 决策 ， 针 对 什么 样 的 客户 采取 什么 样 的 渠道 ， 在 不 同 的 
渠道 发 布 不 同 的 消息 。 例 如 当 一 个 月 均 消 费 1000 美 元 的 顾客 ， 在 几 个 月 里 没有 再 踏足 哈 拉 斯 
时 ， 数 据 库 触 发 器 就 会 发 信 或 打 电 话 邀 请 他 回来 。 

哈 拉 斯 运用 分 析 技术 对 客户 大 数据 信息 进行 挖掘 ， 从 而 帮助 它 预 测 决策 ， 使 公司 成 为 全 
球 博彩 业 的 巨头 。 


8.4.4 大 通 银行 一 一 决策 树 方法 分 析 按 揭 数据 


大 通 银 行 成 立 于 1799 年 ， 目 前 在 65 个 国家 有 办 事 机 构 ， 总 资产 超过 3960 亿 美元 ， 是 世界 
大 型 商业 银行 之 一 ， 对 美国 现代 金融 和 经 济 有 着 巨大 的 影响 。 

早 在 20 世 纪 90 年 代 中 期 ， 大 通 银行 发 现 他 们 在 按揭 贷款 评估 中 总 会 出 现 很 高 的 失误 率 。 
为 此 ， 大 通 银行 请 来 了 一 位 商业 科学 家 丹 ， 斯 坦 伯 格 , 希望 借助 斯 坦 伯 格 研发 的 系统 来 评 
估 、 处 理 大 量 的 银行 按揭 ， 同 时 和 希望 能 够 用 预测 值 来 判断 个 人 按揭 贷款 的 未 来 价值 ， 由 此 来 
确定 是 否 将 这 些 贷款 转让 给 其 他 银行 。 

斯 坦 伯 格 根据 要 求 组 建 了 一 个 小 规模 的 专家 团队 ， 将 分 类 回归 决策 树 方法 用 于 分 析 大 通 
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银行 的 按揭 数据 。 在 这 个 按揭 贷款 预测 评估 程序 中 ， 斯 坦 伯 格 所 要 预测 的 对 象 是 在 未 来 三 个 
月 内 将 提前 还 款 的 按揭 贷款 人 ， 而 所 要 采取 的 行动 则 是 评估 按揭 贷款 的 价值 ， 决 定 是 否 将 这 
笔 贷 款 转让 给 其 他 银行 。 最 终 该 预测 系统 成 功 地 帮助 大 通 银行 预测 了 数 百 万 份 按揭 的 风险 。 

大 通 银 行 从 该 预测 项 目 中 受益 匪 浅 ， 并 于 2000 年 购买 了 JP 摩根 组 建 摩根 大 通 集团 ， 目 前 
按 资产 总 额 测算 ， 摩 根 大 通 已 经 是 美国 市 场 上 最 大 的 金融 机 构 。 


8.4.5 “好事 达 一 一 采用 高 级 预测 分 析 技 术 


好 事 达 保险 公司 ( Allstate ) 每 年 根据 投保 车 辆 的 状况 来 预测 如 果 出 现 交通 事故 时 车 内 人 
员 最 有 可 能 的 受伤 情况 ， 以 此 为 根据 来 调整 保险 方案 ， 这 项 预测 每 年 为 公司 节省 了 将 近 4000 
万 美元 。 目 前 已 有 不 少 保险 公司 在 精算 中 采取 高 级 预测 技术 ， 大 大 提高 了 公司 的 盘 利 。 

上 述 成 功 案例 无 一 不 揭示 着 预测 决策 的 重要 性 。 成 功 的 预测 决策 给 企业 带 来 的 是 无 可 
估量 的 价值 。 海 量 的 数据 使 得 预测 分 析 更 为 依赖 于 客观 的 数据 而 不 是 某 人 的 主观 判断 。 在 过 
去 ， 人 们 下 决定 时 往往 是 根据 自己 的 经 验 判 断 ， 有 时 甚至 是 个 人 的 心情 喜好 。 当 这 些 判 断 者 
处 于 高 位 时 ， 他 们 的 判断 对 企业 的 存亡 则 尤为 关键 ， 领 导 者 一 个 正确 的 判断 很 有 可 能 使 公司 
抢占 先 机 ， 在 激烈 的 竞争 中 脱颖而出 ， 从 此 迈 向 新 的 里 程 碑 ; 而 一 次 错误 的 决策 则 很 有 可 能 
使 公司 错失 良机 ， 其 至 一 践 不 振 。 故 而 在 传统 的 企业 中 ， 一 位 经 验 丰富 、 目 光敏 锐 的 领导 人 
非常 重要 。 世 界 著名 咨询 公司 美国 兰 德 公司 的 一 项 经 典 调查 认为 ， 世 界 上 每 1000 家 破产 倒闭 
的 大 企业 中 ，85% 是 因为 企业 管理 者 的 决策 不 慎 造 成 的 。 可 见 ， 办 好 企业 ， 关 键 在 于 领导 的 
决策 水 平 。 然 而 ,个 人 的 经 验 、 人 生 阅 历 是 有 限 的 ， 且 受 个 人 的 性 格 、 偏 好 等 因素 的 影响 ， 
要 想 长 期 做 出 正确 的 判断 是 一 件 极其 艰巨 的 ， 甚 至 难以 实现 的 任务 。 大 数据 预测 分 析 的 诞 
生 ， 可 帮助 人 们 解决 这 一 难题 。 

大 数据 预测 决策 是 一 门 极 其 重要 的 学 科 ， 目 前 正在 不 断 成 长 中 。 随 着 预测 分 析 技 术 的 逐 
步 完 善 ， 预 测 决策 带 给 我 们 的 将 是 无 法 估量 的 价值 。 


上 8.5 大 数据 时 代 给 政府 决策 管理 带 来 的 机 遇 与 挑战 


大 数据 是 继 云 计算 、 物 联网 之 后 IT 产业 又 一 次 颠覆 性 的 技术 变革 。“ 大 数据 ”时 代 的 来 
临 ， 对 政府 决策 管理 机 遇 与 挑战 并 存 。 怎 样 应 对 大 数据 ， 运 用 大 数据 ， 并 主动 顺应 大 数据 时 
代 来 改进 政府 决策 管理 ， 是 现 阶段 政府 部 门面 临 的 重大 课题 。 


8.5.1 大 数据 提升 政府 的 决策 管理 能 力 


在 当今 世界 ， 大 数据 分 析 技 术 已 为 世界 多 个 国家 所 重视 和 和 运用， 政府 部 门 越 来 越 注 重 
运用 技术 手段 对 数据 资源 进行 深度 的 价值 挖掘 ， 以 满足 日 益 增长 的 精细 化 、 科 学 化 管理 的 需 
要 。 大 数据 分 析 技 术 已 成 为 政府 施政 的 主要 工具 之 一 。 甚 至 发 达 国家 都 在 运用 大 数据 精准 
营销 来 提升 政府 机 关 、 个 人 的 商业 价值 和 形象 。 奥 巴 马 就 是 其 中 的 佼佼 者 ， 在 2012 年 的 大 选 
中 ， 奥 巴 马 有 效 地 利用 了 社会 化 的 精准 营销 ， 获 得 了 大 胜 - 

“大 数据 ”时 代 已 经 到 来 ，2011 年 3 月 11 日 ， 在 日 本 大 地 震 发 生 后 仅仅 9 分 钟 ， 美 国 国家 
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海洋 和 大 气管 理 局 (NOAA ) 就 发 布 了 详细 的 海啸 预警 。 其 快速 反应 归功 于 世界 范围 内 庞大 
的 海洋 传感器 网 络 。 根 据 海洋 传感器 收集 的 实时 数据 ，NOAA 进 行 计算 机 模拟 ， 并 制定 出 详 
细 的 应 急 方案 。 这 一 机 构 花 费 巨大 ， 每 年 的 预算 都 高 达 10 亿 美元 ， 美 国政 府 却 乐此不疲 ， 因 
为 数据 关乎 生命 。 

对 政府 部 门 而 言 ， 大 数据 所 能 带 来 的 巨大 能 量 已 经 显现 ， 甚 至 已 经 超过 了 技术 改进 产生 
的 效益 。 与 互联 网 的 发 明 一 样 ， 大 数据 分 析 绝 不 仅仅 是 信息 技术 领域 的 革命 ， 更 是 建设 数据 政 
府 ， 引 领 政府 智能 决策 的 利器 。 一 般 来 讲 ， 大 数据 主要 在 以 下 几 方面 对 政府 决策 管理 起 作用 。 

在 政策 制定 阶段 ， 数 据 分 析 是 决定 政策 质量 高 低 的 关键 性 因素 。 通 过 对 历史 数据 的 有 效 
分 析 ， 可 以 吸取 教训 ， 总 结 经 验 ， 为 新 计划 的 制定 提供 宝贵 的 借鉴 。 对 当前 及 未 来 影响 政府 
活动 的 可 能 因素 进行 量化 分 析 ， 辅 之 以 同期 其 他 国家 ( 地 区 ) 同类 活动 的 运行 比较 ， 可 以 为 
政策 的 制定 提供 更 为 直接 、 更 加 重要 的 参考 。 如 广西 采用 了 PADIS 系 统 ( 国家 人 口 管 理 与 决 
策 信 息 系统 ) ， 通 过 输入 本 地 的 相关 具体 数据 和 备 选 政策 ， 最 终 作出 修改 自治 区 人 口 和 计划 
生育 条 例 的 决定 ， 条 例 生育 两 个 子女 的 条 件 从 以 前 的 “夫妻 双方 均 是 独生子 女 ” 放 宽 为 “ 夫 
妻 一 方 是 独生子 女 ”。 

在 政策 实施 阶段 ， 大 数据 分 析 技 术 可 以 有 效 地 监控 政策 实施 的 情况 。 首 先 可 以 通过 数据 
分 析 监控 ， 及 时 掌握 政策 是 否 按 计划 如 期 实施 ， 了 解 影响 政策 的 顺利 实施 的 因素 有 哪些 。 此 
外 ， 对 于 政策 实施 过 程 中 出 现 的 一 些 问题 或 失误 ， 数 据 分 析 技术 可 以 快速 、 准 确 地 反映 给 决 
策 者 ， 从 而 能 在 第 一 时 间 提出 补救 或 修正 措施 。 

在 政策 评估 阶段 ， 数 据 分 析 同 样 有 着 不 可 忽视 的 作用 。 如 政策 的 实施 是 否 发 挥 预期 的 作 
用 ,实施 后 又 产生 了 哪些 其 他 方面 的 后 果 等 。 这 些 问题 都 需要 通过 科学 的 数据 分 析 来 解答 ， 
同时 也 对 未 来 政策 的 制订 有 着 极其 重要 的 借鉴 意义 。 

随 着 社会 经 济 文化 的 发 展 和 进步 ， 公 众 对 政府 和 职能 部 门 的 要 求 也 越 来 越 高 ， 集 中 表 
现 为 要 求 提高 行政 效率 和 透明 度 、 创 新 工作 方式 、 提 高 对 社会 的 服务 能 力 等 。 大 数据 技术 的 
发 展 给 政府 决策 管理 能 力 的 提高 黄 定 了 基础 。 如 中 国 的 耕地 和 粮食 生产 管理 问题 ， 以 往 依靠 
镇 、 县 、 市 、 省 再 到 国家 统计 局 ,统计 人 员 层 层 上 报 ， 费 心 、 费 人 、 费 力 ,但 由 于 基层 出 于 
地 方 利益 的 考虑 ， 且 受 工作 能 力 、 精 力 所 限 ， 其 数据 上 报 的 准确 性 令 人 怀疑 。 而 如 今 政 府 采 
用 大 数据 建 模 的 方法 ， 通 过 遥感 卫星 来 识别 图 像 ， 把 中 国 所 有 的 耕地 标识 、 计 算出 来 ， 然 后 
把 中 国 的 耕地 网 格 化 ， 对 每 个 网 格 的 耕地 抽样 进行 跟踪 、 调 查 和 统计 ， 接 着 按照 统计 学 的 原 
理 ， 计 算出 中 国 整体 的 耕地 、 粮 食 数据 。 这 种 采用 大 数据 建 模 的 方法 使 政府 更 易 获得 真实 的 
决策 数据 。 此 外 ， 大 数据 使 得 政府 真正 拥有 执政 为 民 的 能 力 ， 维 护 人 民 的 权益 。 例 如 ， 利 用 
数据 对 广大 消费 者 的 质量 诉求 进行 统计 归纳 ， 就 可 以 迅速 知晓 哪些 公司 、 哪 个 地 区 、 哪 类 产 
品质 量 问 题 比较 多 ， 从 而 更 有 针对 性 地 进行 整治 管理 和 监管 ， 才 能 对 百姓 提供 更 好 的 服务 。 
同时 ， 可 利用 大 数据 技术 挖掘 海量 的 市 场 商品 数据 ， 如 商场 退货 信息 、 消 费 者 投诉 信息 、 医 
院 伤 患 医疗 信息 、 当 地 政府 执法 和 监管 信息 、 公 检 法 机 关 执法 信息 、 媒 体 传播 信息 、 网 络 交 
流 信 息 、 科 技 研究 信息 等 ， 通 过 对 这 些 数 据 进行 全 面 地 挖掘 、 整 理 ， 能 够 找 出 一 些 产 品 的 质 
量 安全 问题 或 潜在 的 质量 风险 ， 然 后 采用 简单 的 技术 进行 检测 验证 ， 这 样 政府 管理 部 门 就 能 
提前 了 解 风险 ， 降 低 风 险 ， 化 解 风险 ， 防 患 于 未 然 。 
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通过 大 数据 ， 传 统 的 管理 方式 将 被 颠覆 ， 与 此 同时 自身 管理 的 有 效 性 也 得 到 提高 。 以 
往 ， 政 府 部 门 内 部 的 管理 方式 主要 依赖 于 层级 组 织 以 及 严格 的 流程 ， 依 赖 信息 的 层 层 汇 集 来 
制定 正确 的 决策 。 再 通过 决策 在 组 织 中 传递 和 分 解 ， 以 及 规范 流程 ， 从 而 确保 决策 得 以 贯彻 
实施 。 在 传统 各 方面 技术 有 限 的 条 件 下 ， 这 无 疑 是 一 种 有 用 的 方法 ， 然 而 这 种 方法 显得 费时 
而 笨拙 。 如 今 在 大 数据 时 代 ， 可 以 重 构 质 监 部 门 的 管理 方式 。 通 过 实施 远程 数据 传输 、 监 
控 ， 能 够 对 企业 实行 实时 数据 比 对 监管 、 对 新 的 监管 数据 实时 录入 ， 可 以 进行 远程 在 线 指 
挥 。 通 过 大 数据 的 分 析 和 挖掘 ， 政 府 不 需要 再 依靠 庞大 的 组 织 以 及 复杂 的 流程 ， 这 样 可 以 改 
变 以 往 的 层 层 报告 ， 使 大 量 的 管理 业务 能 够 根据 既定 的 规则 进行 自主 决策 ， 节 省 了 时 间 。 数 
据 化 地 管理 工作 人 员 的 行程 、 任 务 ， 通 过 定期 统计 分 析 ， 可 以 及 时 准确 地 了 解 工作 人 员 的 工 
作 量 、 完 成 任务 情况 、 工 作 绩 效 等 。 这 样 通过 实 实在 在 的 数据 来 说 话 ， 改 变 过 去 靠 印象 管 
理 ， 提 拔 人 才 的 方式 。 

总 而 言 之 ， 在 这 样 一 个 信息 爆炸 、 技 术 发 达 的 新 时 代 ， 大 数据 是 一 种 可 再 生 的 重要 资 
源 。 该 资源 能 够 被 国家 和 各 行业 反复 利用 ， 是 一 种 越 控 越 多 、 越 挖 越 值钱 的 资源 。2012 年 ， 
联合 国 在 发 布 的 大 数据 政务 白皮书 中 指出 ， 大 数据 对 于 联合 国 和 各 国政 府 来 说 是 一 个 历史 性 
的 机 遇 ， 人 们 如 今 可 以 使 用 极其 丰富 的 数据 资源 ， 来 对 社会 、 经 济 进行 史无前例 的 实时 分 
析 ， 帮 助 政府 更 好 地 响应 社会 和 经 济 运行 。 因 此 ， 要 尽快 适应 新 形势 ,加强 新 知识 的 学 习 ， 
及 时 了 解 大 数据 、 运 用 大 数据 ， 通 过 云 计算 等 新 技术 的 运用 ， 促 进 政府 智能 决策 管理 工作 不 
断 走 上 新 的 台阶 。 


8.5.2 大 数据 浪潮 中 政府 面临 的 挑战 


大 数据 给 政府 带 来 了 一 个 全 新 的 、 历 史 性 的 机 遇 ， 其 背后 隐藏 的 价值 更 令 人 激动 ， 然 而 
大 数据 时 代 来 临 同样 使 政府 决策 管理 面临 了 巨大 的 困难 和 新 挑战 。 

1. 政府 的 信息 化 建设 水 平 

大 数据 对 政府 的 信息 化 建设 水 平 提出 了 挑战 。 相 对 于 过 去 数据 处 理 方式 ， 无 论 是 过 程 
(从 数据 搜集 到 数据 处 理 ) ， 数 据 类 型 ( 结构 化 、 半 结构 化 和 非 结构 化 ) ， 处 理 标准 〈 标准 
统一 与 标准 各 异 ) ， 还 是 处 理 对 象 ( 只 面 对 样本 或 面 对 庞 大 的 总 体 ) ， 都 存在 着 巨大 的 差 
异 ， 尤 其 是 数据 的 搜集 和 处 理 难度 也 明显 更 大 。 大 数据 中 包含 更 多 的 是 非 结 构 化 数据 ， 如 图 
片 、 视 频 、 文 字 ， 处 理 这 些 数据 有 着 极其 重要 的 意义 。 在 美国 就 有 一 例 通 过 视频 数据 分 析 解 
决 的 爆 恐 案 。 美 国 波士顿 在 各 个 地 方 都 装 有 高 清 摄像 头 ， 某 天 ， 一 个 可 疑 的 黑色 背包 突然 出 
现在 马路 边 上 ， 根据 这 个 异常 信号 ， 视 频 中 心 立刻 就 报警 了 。 爆 炸 事件 发 生 后 ， 回 溯 到 这 段 
视频 ， 根 据 视频 提供 的 信息 ， 警 方 快 速 地 锁定 了 做 这 个 行为 的 嫌疑 人 ， 接 着 连续 性 跟踪 ， 很 
快 把 犯罪 嫌疑 人 绳 之 于 法 。 侦 破 这 个 爆炸 案件 就 涉及 到 大 数据 技术 ， 如 何在 海量 的 高 清 视频 
中 提取 这 种 异常 节点 的 数据 ， 以 及 如 何在 多 个 非 连续 的 摄像 头 中 间 ， 找 出 某 人 相关 的 行动 轨 
迹 ， 这 在 以 往 的 传统 技术 里 难度 是 很 大 的 ， 需 要 使 用 新 的 技术 处 理 方法 。 因 此 ， 如 何 将 这 些 
非 结构 化 数据 进行 结构 化 处 理 ， 对 海量 的 数据 进行 分 析 挖掘 ， 培 养 更 多 的 大 数据 科学 家 是 政 
府 信息 化 建设 中 要 面 对 的 一 个 重大 课题 。 
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2. 如 何 去 噪 音 留 信号 

大 数据 指 的 是 所 涉及 的 数据 量规 模 巨大 、 关 系 混杂 、 动 态 持续 、 变 化 不 定 ， 需 要 用 先 
进 的 技术 和 工具 ， 在 合理 时 间 内 实现 数据 的 搬 取 、 存 储 、 分 配 、 提 炼 、 处 理 、 集 成 和 分 析 ， 
并 从 中 挖掘 出 有 价值 的 信息 。 然 而 如 何 才能 快速 而 准确 地 分 析 挖 掘 数据 ， 并 根据 预测 进行 决 
策 ， 这 是 大 数据 预测 决策 的 重点 、 难 点 。 目 前 大 数据 公认 的 四 个 特征 里 面 ， 价 值 密度 低 一 直 
是 我 们 面临 的 难点 。 在 海量 的 数据 里 面 ， 大 部 分 数据 都 只 是 噪音 而 已 ， 真正 有 用 的 信息 非常 
少 。 就 目前 而 言 ， 分 析 和 挖掘 数据 的 增长 能 力 远 远 跟 不 上 实际 需求 ， 太 多 的 数据 需要 发 掘 。 
在 信息 爆炸 的 大 数据 时 代 ， 政 府 所 要 做 出 的 预测 的 速度 和 数量 都 在 不 断 增加 ， 然 而 现实 世界 
中 的 很 多 预测 都 失败 了 ， 也 因此 而 付出 了 巨大 的 社会 代价 。 例 如 2008 年 金融 危机 、 卡 特 里 娜 
帜 风 以 及 禽 流感 肆虐 等 ， 由 于 预测 者 没 办 法 从 杂 多 的 噪音 中 把 信号 挖掘 出 来 ， 忽 视 了 真正 的 
信和 号， 最 终 导致 错误 的 预测 ， 从 而 付出 了 巨大 的 代价 。 因 此 政府 决策 管理 面临 的 一 大 难点 就 
是 如 何 提高 分 析 挖 掘 数据 的 能 力 ， 将 正确 的 信号 从 混杂 了 噪音 的 数据 中 提取 出 来 ， 从 而 为 正 
确 预 测 决策 打下 良好 的 基础 。 

3. 正确 地 运用 大 数据 工具 

大 数据 预测 决策 是 顺应 时 代 发 展 的 需要 而 诞生 的 ， 将 给 政府 决策 管理 带 来 一 场 新 的 改 
革 。 然 而 在 这 巨大 的 喜悦 面前 ， 我 们 更 应 该 时 刻 保持 清醒 ， 不 要 盲目 地 被 大 数据 “ 牵 着 鼻子 
走 ”。 要 知道 ， 人 才 是 信息 社会 的 主体 ， 我 们 应 当 积极 发 挥 主观 能 动 性 ， 在 对 数据 进行 分 析 
挖掘 并 得 到 有 用 的 信息 时 ， 要 善于 将 信息 与 丰富 的 经 验 相 结合 ， 让 大 数据 预测 辅助 政府 决 
策 ， 而 不 是 大 数据 预测 来 决定 政府 决策 。 如 2008 年 谷歌 推出 了 流感 趋势 系统 来 监测 全 美的 网 
络 搜索 ， 通 过 寻找 与 流感 相关 的 词语 ， 比 如 “咳嗽 ”和 “发 烧 ” 等 ， 谷 歌 根据 这 些 搜索 来 提 
前 预测 流感 的 爆发 ， 并 在 2009 年 成 功 地 预测 了 甲 型 HIN1 流 感 的 爆发 ， 然 而 2013 年 谷歌 预测 的 
流感 信息 与 美国 疾病 控制 中 心 报道 的 结果 相差 其 还 。 有 专家 认为 “大 数据 傲慢 ” ( Big Data 
Hubris ) 和 算法 变化 是 导致 谷歌 预测 发 生 错 误 的 主要 原因 。“ 大 数据 傲慢 ” 即 人 们 认为 大 数 
据 可 以 完全 取代 传统 的 数据 收集 方法 ， 而 非 作为 后 者 的 补充 。 在 大 数据 的 时 代 , 政府 应 清楚 
大 数据 技术 的 定位 ， 善 于 运用 大 数据 技术 工具 来 帮助 政府 决策 。 如 何 正 确 地 运用 大 数据 工具 
而 不 是 盲目 地 依赖 于 大 数据 ， 这 也 是 政府 目前 的 一 个 难点 。 

4. 保护 信息 隐私 权 

数据 的 价值 、 力 量 和 意义 让 数据 变 得 很 敏感 ， 而 最 令 人 关注 的 是 数据 的 收集 和 预测 会 
不 会 侵犯 了 个 人 的 隐私 。 的 确 ， 在 大 数据 时 代 ， 人 人 几乎 无 处 通 形 ， 拿 互联 网 领域 来 讲 ， 顺 
着 社交 网 络 的 这 一 张大 网 ， 总 会 找到 人 们 的 蛛丝马迹 。 人 们 通过 电脑 、 手 机 等 电子 设备 在 网 
络 上 进行 的 每 一 个 操作 ， 都 被 服务 器 记录 了 下 来 ， 而 且 这 些 被 记录 的 个 人 信息 将 面临 着 二 次 
利用 。 例 如 目标 超市 根据 消费 者 采购 商品 的 种 类 等 来 分 析 怀 有 身孕 的 消费 者 ， 从 而 扩大 营销 
受众 群体 ; 药店 根据 人 们 的 医疗 信息 推测 其 身体 健康 状况 ， 是 否 患 有 某 种 疾病 ， 从 而 向 目标 
客户 推销 药物 …… 这 种 种 的 情况 会 让 人 们 感觉 自己 的 隐私 毫 无 遮掩 地 暴露 在 他 人 面前 ， 生 活 
中 无 处 不 在 的 “第 三 只 眼 ”更 是 引起 了 人 们 的 惊 恺 。 因 此 ,政府 应 当 保护 公民 的 隐私 权 ， 对 
数据 的 隐私 权 进行 保护 。 进 行 数据 搜集 以 及 分 析 的 人 员 也 都 应 当 具有 保护 数据 隐私 的 职业 道 
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德 和 高 度 的 责任 感 。 在 发 掘 大 数据 价值 的 过 程 当 中 ,为 了 实现 价值 的 准确 匹配 ， 有 时 会 无 法 
避免 地 利用 到 这 些 隐 私 数据 。 在 这 种 情况 之 下 ， 必 须 通 过 法 律 手段 来 确保 个 人 隐私 数据 的 权 
利 。 就 公民 个 人 而 言 ， 在 享受 大 数据 时 代 所 带 来 个 性 化 服务 的 同时 ， 也 要 加 强风 险 防范 意 
识 ， 在 有 可 能 留 下 隐私 数据 的 情形 下 ， 能 够 充分 考虑 到 因为 隐私 暴露 而 有 可 能 给 自己 带 来 的 
不 利 ， 同 时 采取 相应 的 防范 措施 来 保护 隐私 。 而 政府 方面 则 应 该 界定 信息 隐私 权 ， 即 使 概念 
的 界定 会 带 来 争议 ， 但 这 些 可 以 在 广泛 的 讨论 上 达成 共识 。 我 们 应 当 在 这 个 基础 上 ， 对 数字 
隐私 权 进 行 基础 设施 建设 。 与 此 同时 ， 推 动 相关 立法 进程 来 打造 一 个 良性 的 信息 生态 环境 。 
5. 数据 安全 管理 


大 数据 意味 着 大 量 的 数据 ， 同 时 也 意味 着 更 加 繁杂 多 变 的 数据 ， 毫 无 疑问 ， 大 数据 的 价 
值 将 吸引 更 多 的 攻击 者 。 在 网 络 空间 ， 大 数据 往往 更 容易 被 黑客 “有 盯 上 ”。 数 据 的 大 量 汇集 
更 便于 黑客 攻击 ， 黑 客 成 功 攻 击 一 次 就 可 以 获得 巨 量 的 数据 ， 这 无 形 等 于 降低 了 黑客 的 进攻 
成 本 ， 提 高 了 攻击 者 的 效率 。 此 外 ， 大 数据 存储 带 来 了 新 的 安全 问题 ， 威 胁 着 现 有 的 存储 和 
安防 措施 。 数 据 大 集中 的 后 果 是 复杂 多 样 的 数据 存储 在 一 起 ， 很 可 能 会 出 现 数据 存放 不 合理 
的 情况 。 例 如 企业 将 某 些 生产 数据 放 到 经 营 数据 存储 的 位 置 ， 致 使 企业 安全 管理 不 合 规 。 政 
府 也 同样 会 面临 安全 管理 不 合 规 等 情况 。 此 外 ， 大 数据 的 大 小 也 与 安全 控制 措施 能 否 正 确 运 
行 息息相关 。 大 数据 技术 不 仅 能 给 政府 的 安全 防护 手段 的 更 新 升级 带 来 帮助 ， 也 给 黑客 的 攻 
击 加 强 了 手段 。 可 以 想象 一 下 ， 如 果 安 全 防护 手段 的 更 新 速度 无 法 跟 上 数据 量 非 线性 增长 的 
步伐 ， 那么 大 数据 安全 防护 的 漏洞 就 会 暴露 。 最 终 ， 大 数据 技术 将 成 为 黑客 用 来 对 付 政府 的 
手段 。 与 此 同时 ， 大 数据 技术 也 给 黑客 发 起 攻击 带 来 了 更 多 的 机 会 。 黑 客 利用 大 数据 进行 僵 
尸 网 络 攻击 ， 可 以 同时 控制 上 百 万 台 倪 偶 机 并 发 起 攻击 。 如 韩国 就 曾 遭 遇 过 大 规模 APT 攻 击 
事件 ， 在 2013 年 3 月 ， 韩 国 多 家 大 型 银行 和 媒体 相继 出 现 电脑 丢失 画面 的 情况 ， 系 统 几 乎 次 
痪 。 根 据 国家 互联 网 应 急 中 心 统计 显示 ，2012 年 移动 互联 网 恶意 程序 数量 又 增 至 162981 个 ， 
较 2011 年 增长 了 25 倍 。 这 些 事件 敲 响 了 数据 安全 的 警钟 。 鉴 于 大 数据 的 重要 价值 ， 政 府 更 应 
加 强 数据 安全 的 管理 ， 把 数据 牢 牢 地 掌握 在 自己 手中 。 


8.5.3 政府 以 变革 来 顺应 大 数据 时 代 


政府 在 大 数据 占有 方面 具有 天 然 的 优势 ， 是 大 数据 的 最 大 受益 者 ， 因 而 也 在 建设 大 数据 
基础 设施 、 培 育 大 数据 产业 、 培 养 大 数据 人 才 、 完 善 相 关 标准 和 立法 等 方面 负 有 更 至 关 重 要 
的 责任 。 我 国 是 社会 主义 国家 ， 政 府 在 资源 配置 方面 发 挥 着 极其 重要 的 作用 ， 其 强大 影响 力 
是 带动 大 数据 加 速 发 展 的 优势 所 在 。 但 是 ,我 国政 府 在 大 数据 应 用 方面 才刚 刚 起 步 ， 要 利用 
好 大 数据 ， 所 面临 的 困难 不 仅仅 是 技术 上 的 因素 ,更 面临 一 系列 的 大 转型 、 大 变革 。 

对 政府 公共 管理 水 平 的 变革 ， 主 要 体现 在 以 下 5 个 方面 。 

(1 ) 实现 信息 透明 和 共享 。 都 说 大 数据 是 新 型 的 石油 ， 这 宝贵 的 资源 不 仅 能 提高 政府 
内 部 利益 相关 者 〈 比如 政府 雇员 和 政府 机 构 ) 的 工作 效率 ， 它 的 再 生性 及 其 潜在 价值 也 可 以 
给 公民 、 企 业 等 带 来 直接 或 间接 的 价值 ， 产 生 积极 的 经 济 社会 综合 效益 。 例 如 2006 年 起 ， 中 
国人 民 银 行 上 海 总 部 公开 了 金融 信息 ， 从 而 催生 了 一 大 批 金融 信息 咨询 服务 公司 。 其 中 上 市 
的 包括 上 海 联 和 金融 信息 服务 有 限 公 司 等 5 家 公司 ， 这 些 金融 公司 解决 了 十 几 万 人 的 就 业 问 
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题 。 所 以 ， 实 现 信息 透明 和 共享 对 政府 和 企业 都 是 互惠 互利 的 。 

(2 ) 通过 人 口 细 分 和 定制 政策 ， 有 针对 性 地 对 特定 群体 进行 公共 服务 ， 提 高 公众 满意 
度 和 工作 效率 ,减少 不 必要 的 开支 。 在 以 往 的 公共 管理 中 ,公共 部 门 更 倾向 于 为 所 有 公民 提供 
相同 的 服务 。 事 实 上 ， 不同 的 人 群 往往 有 不 同 的 需求 。 部 门 由 于 不 能 有 的 放 矢 ， 通 常会 在 不 必 
要 的 方面 浪费 巨 资 ， 同 时 也 达 不 到 有 效 服务 公众 的 目的 。 德 国联 邦 劳工 局 就 采用 数据 分 析 的 手 
段 ， 对 失业 人 员 的 失业 情况 、 干 预 手段 以 及 重新 就 业 等 做 了 研究 ， 有 效 地 区 分 不 同类 别 的 失业 
群体 ， 从 而 有 针对 性 地 进行 干预 ， 提 高 了 公共 服务 的 有 效 性 。 据 了 解 ， 该 做 法 大 大 缩短 了 失业 
人 员 再 就 业 的 时 间 ， 改 善 了 他 们 的 求职 体验 ， 并 使 该 局 每 年 因此 减少 了 100 亿 欧元 的 相关 支出 。 

(3 ) 为 了 增强 内 部 竞争 ， 进 行 公共 部 门 的 绩效 评估 ， 激 励 人 员 的 工作 表现 ， 提 高 公共 
建设 的 效率 ,合理 降低 政府 的 管理 成 本 ,提升 行政 服务 的 质量 。 辟 如 ,荷兰 政府 推行 利用 大 数 
据 来 提升 防洪 能 力 。 在 数字 三 角 洲 的 工程 实施 过 程 中 ,通过 协调 国家 研究 所 、 税 务 部 门 和 环境 
部 三 方 的 财力 、 物 力 以 及 人 力 ， 研 究 如 何 采用 大 数据 预测 ， 改 变 防 洪 策略 和 整个 荷兰 水 资源 系 
统 的 管理 工作 。 并 通过 IT 技 术 以 及 更 好 的 方式 来 处 理 可 用 数据 ， 从 而 达到 降低 成 本 的 目的 。 
结合 相应 的 数据 推测 发 现 ， 这 项 工程 预计 可 以 节省 高 达 15% 的 荷兰 年 度 水 资源 管理 预算 。 

(4 ) 利用 政务 智能 代替 或 辅助 人 工 决策 ， 人 的 精力 是 有 限 的 ， 要 在 纷繁 复杂 的 数据 中 
找 出 错误 和 虚假 的 信息 ， 需 要 耗费 巨大 的 人 力 物力 ， 而 大 数据 技术 的 发 展 为 降低 出 错 成 本 和 
防止 福利 管理 中 的 诈骗 等 提供 了 可 能 。 美 国 邮政 署 的 计算 机 系统 就 可 以 自动 扫描 邮件 的 相关 
数据 ， 通 过 与 数据 库 中 约 4000 亿 条 数据 ( 如 存放 位 置 、 路 线 、 重 量 和 体积 等 信息 ) 的 比较 ， 
筛选 出 “邮资 欺诈 ”的 邮件 。 每 封 邮件 仅 需 要 花 50 ~ 100 毫 秒 扫描 。 当 检测 出 了 蜡 常 ， 诸 如 邮 
资 不 足 抑或 邮票 重复 使 用 等 情况 时 ， 系 统 就 会 对 该 信件 实行 拦截 。 由 于 该 项 目的 实施 ， 美 国 
的 邮资 欺诈 行为 大 幅 减 少 ， 对 “邮资 欺诈 ”行为 起 到 了 很 好 的 威慑 效应 。 

(5 ) 引导 公共 部 门 内 、 外 部 的 创新 。 比 如 ， 商 业 、 非 营利 组 织 、 第 三 方 等 可 通过 开发 大 
数据 工具 和 分 析 来 反馈 给 公共 服务 ， 帮 助 改善 现 有 的 方案 ， 进 而 为 公共 部 门 创造 新 的 价值 。 
作为 大 数据 惠 民 的 一 项 重要 探索 ， 北 京 市 于 2012 年 10 月 推出 了 政府 数据 资源 网 的 测试 版 ， 并 面 
向 企业 及 个 人 征集 APP ( 应 用 程序 ) 。 由 社会 力量 开发 的 “上 下 班 路 况 ”“ 交 通 英雄 ”“ 游 北 
京 ” 和 “ 爱 健康 ”程序 已 经 可 以 下 载 试用 。 如 “上 下 班 路 况 ” 可 对 北京 市 全 市 路 况 概 览 、 周 边 
路 况 查询 、 交 通 执法 站 查询 、 上 下 班 旅行 时 间 预 测 等 。 这 些 程序 给 用 户 带 来 了 极 大 的 方便 。 

此 外 ， 大 数据 技术 还 给 政府 互联 网 管理 、 政 府 统计 、 应 急 管理 系统 等 各 方面 都 带 来 了 极 
大 的 改革 。 

如 在 互联 网 管理 方面 ， 政 府 与 北京 国 双 科技 有 限 公 司 合作 成 立 了 国家 信息 中 心 网 络 政 
府 研 究 中 心 。 国 信 中 心 网 络 政府 研究 中 心 副 主任 于 施 洋 在 国 双 数据 中 心 启动 仪式 中 表示 ,大 
数据 对 于 政府 最 核心 的 价值 就 是 建设 开放 的 政府 ， 一 个 有 责任 的 智慧 政府 。 在 大 数据 的 时 代 
下 ,政府 在 信息 化 领域 首先 应 该 转变 工作 的 观念 ， 坚 持 改革 开放 ,不 搞 封 闭 。 同 时 政府 在 信 
息 化 领域 中 更 应 该 发 挥 引导 的 作用 ， 美国 的 大 量 案例 证 明 ， 政 府 在 大 数据 中 ， 会 带动 整个 大 
数据 产业 飞速 的 发 展 ， 这 已 经 是 一 个 事实 。 所 以 ， 政 府 在 这 个 领域 更 应 当 起 到 表率 的 作用 。 
另外 ， 政 府 用 信息 化 提升 创新 的 能 力 是 大 势 所 趋 。 未 来 ， 大 数据 精准 营销 还 给 政府 互联 网 管 
理 带 来 更 大 的 改革 ， 政 府 互 联网 可 以 “精准 地 感知 ”和 “有 效 地 反馈 ”， 更 了 解 公众 的 需 
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要 ， 及 时 服务 公众 ， 使 政府 未 来 在 互联 网 和 公众 之 间 形 成 和 睦 和 谐 的 互动 ， 创 造 一 个 更 美好 
的 互联 网 环境 。 

政府 是 大 数据 时 代 的 先锋 ， 更 应 该 把 握 好 在 大 数据 浪潮 中 前 进 的 方向 ， 顺 应 时 代 的 要 求 
和 发 展 趋势 ， 不 断 地 改进 创新 ， 争 取 早日 建立 世界 一 流 的 智慧 政府 。 


18.6 ”大 数据 时 代 的 跨 界 与 颠覆 


互联 网 、 移 动 通信 和 大 数据 对 传统 行业 的 重 构 已 经 成 为 中 国 经 济 新 一 轮 快速 发 展 的 关键 
推动 力 。 随 着 新 生 代 的 消费 需求 的 变化 ， 对 产业 结构 和 运营 效率 的 要 求 越 来 越 高 ，“ 跨 界 ” 
现象 正在 重 塑 着 传统 产业 格局 。 


8.6.1 大 数据 时 代 ， 颠 覆 浪 潮 席 卷 传 统 产业 


大 数据 、 云 计算 、 移 动 互联 网 、 搜 索引 擎 、 社 交 网 络 、 物 联网 等 新 兴 信 息 技术 的 发 展 ， 改 变 
了 传统 的 信息 产生 、 传 播 、 加 工 利用 的 方式 ， 尤 其 是 互联 网 、 移 动 互联 网 和 大 数据 有 望 成 为 中 国 
经 济 新 一 轮 快速 发 展 的 关键 推动 力 。 在 此 信息 技术 基础 上 越 来 越 多 的 基于 云 服务 的 软件 应 用 开 
始 涌现 ， 而 在 软件 应 用 的 背后 则 聚集 了 海量 的 数据 。 最 终 数 据 又 需要 通过 电子 产品 来 展现 。 从 
本 质 上 ， 互 联网 与 大 数据 是 对 传统 产业 的 价值 核心 要 素 的 分 配 ， 是 生产 关系 的 重 构 。 大 数据 颠 
窗 传 统 产业 ， 提 升 运营 效率 和 改变 产业 结构 。21 世 纪 蚌 颠覆 浪潮 席卷 传统 产业 的 大 数据 时 代 。 

大 数据 分 析 技 术 可 以 帮助 人 们 发 现 规律 和 作出 预测 决策 ， 将 对 经 济 、 社 会 产生 巨大 的 
影响 。 而 大 数据 时 代 首 先 给 各 行业 带 来 的 是 颠覆 传统 的 改变 ， 从 管理 、 构 架 、 实 施 方式 等 方 
面 ， 新 的 技术 都 使 之 焕然 一 新 。 其 中 受 大 数据 影响 最 大 的 行业 之 一 就 是 医疗 行业 。 

新 兴 的 医疗 技术 和 设备 正在 改变 医生 的 行医 方式 、 临 床 评估 方式 和 与 患者 交互 的 方式 。 
在 国外 已 经 开始 实现 数字 化 寻 医 问 诊 。 如 美国 在 线 医 疗 服务 使 医生 或 联合 医疗 服务 提供 者 实 
现 了 实时 、 安 全 的 电子 化 视频 问 诊 。 蔷 果 、 谷 歌 、 百 度 等 纷纷 研制 、 推 出 了 智能 手表 、 智 能 
手 环 ， 这 些 产 品 能 随时 随 刻 采 集 用 户 的 体温 、 睡 眠 质量 、 血 压 、 脉 搏 等 数据 ， 且 这 些 数据 
可 通过 智能 终端 传递 到 远 端 ， 对 用 户 的 健康 状态 进行 良好 的 管理 。Augmedi 运 用 谷歌 眼镜 技 
术 ， 为 临床 和 门诊 大 夫 提供 服务 ， 通 过 自动 化 生成 患者 就 诊 文档 ， 解 决 了 难点 问题 ， 具 有 巨 
大 的 价值 。 大 数据 技术 使 得 医生 可 以 跨 市 、 跨 省 甚至 跨国 学 习 了 解 其 他 顶尖 医生 的 治疗 经 
验 ， 汇集、 提炼 全 球 优秀 医者 的 治疗 方案 ， 进 一 步 提升 自己 的 医学 专业 和 实战 经 验 。 同 时 ， 
大 数据 技术 让 医学 诊断 在 未 来 有 可 能 逐渐 演化 为 全 人 、 全 程 的 信息 跟踪 、 预 测 预防 和 个 性 化 
治疗 。 著 名 的 苹果 公司 联合 创始 人 史 蒂 夫 ' 乔布斯 ， 曾 经 花费 10 万 美元 将 他 的 瘤 肿瘤 和 正常 
的 DNA 进 行 测序 ， 以 期 找到 针对 性 的 治疗 方案 。 相 信 随 着 科学 的 进步 ， 根 据 患 者 的 遗传 基因 
和 临床 信息 的 全 民 个 性 化 治疗 将 不 再 是 构想 。 

发 现 与 预测 是 大 数据 应 用 的 核心 ， 交 通 运输 行业 利用 这 个 特点 使 其 服务 水 平 得 到 极其 
大 的 提升 和 改变 。 大 数据 的 虚拟 性 以 及 信息 集成 优势 和 组 合 效率 较 大 程度 上 改变 了 传统 公共 
交通 管理 的 路 径 。 大 数据 可 以 跨越 行政 区 域 的 限制 ， 有 利于 信息 的 跨越 区 域 管理 ， 利 用 大 数 
据 技术 进行 集成 、 检 索 、 分 析 ; 挖掘 出 有 价值 的 相关 信息 ， 尽 可 能 地 满足 各 种 交通 需求 ， 从 
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而 使 实时 交通 障碍 得 以 顺利 解决 。 例 如 ,根据 全 国 高 速 公路 收费 数据 ， 通 过 结合 交通 流量 调 
查 信息 与 重点 营运 车 辆 联网 联 控 信 息 ， 可 以 比较 准确 地 获知 在 某 一 时 刻 、 某 一 区 域 的 人 员 流 
量 、 车 流量 ， 甚 至 是 物流 信息 ( 车 联网 ) ， 进 而 对 未 来 几 十 分 钟 甚至 更 长 时 间 内 的 路 网 交通 
状况 进行 预测 。 当 发 生 突 发 事件 时 ， 能 够 实时 判定 对 区 域 交通 的 影响 趋势 ， 从 而 及 时 采取 相 
应 的 措施 。 此 外 ， 大 数据 还 可 以 帮助 警方 破获 车 辆 盗窃 案 。 当 车 辆 被 次 后， 数据 中 心 能 够 调 
取 整 个 城市 内 的 摄像 头 监控 视频 ， 进 行 数 据 分 析 ， 得 到 被 次 车辆 的 具体 位 置 及 时 间 信息 ， 即 
通过 对 该 车 辆 某 一 时 刻 在 什么 位 置 ， 及 该 车 的 行驶 轨迹 和 城市 道路 运行 情况 等 数据 进行 综合 
分 析 ， 进 而 推测 出 该 车 下 一 刻 可 能 在 哪个 地 方 出 现 。 根 据 预 测 结果 ， 警 方 在 预测 点 守株待兔 
即 可 。 另 外 ， 大 数据 还 能 够 检测 套 牌 车 ， 运 用 数据 分 析 找 出 同样 的 牌号 同一 时 刻 在 不 同 地 方 
运行 的 车 辆 ， 使 得 套 牌 车 无 所 授 形 ?。 事 实证 明 ， 先 进 的 大 数据 技术 ， 能 帮助 政府 更 好 地 配 
置 公共 交通 信息 资源 。IBM 研 究 中 心 针 对 交通 的 大 数据 管理 这 一 主题 ， 与 加 利 福 尼 亚 州 运输 
部 以 及 加 利 福 尼 亚 大 学 伯克利 分 校 的 加 州 创新 运输 中 心 ( CCIT ) 进行 合作 ， 目 的 在 于 预测 上 
班 族 的 交通 条 件 。 现 在 大 数据 在 交通 管理 方面 的 作用 日 渐 显著 ， 一些 大 企业 ， 如 谷歌 、 荚 果 
等 都 已 利用 大 数据 来 解决 交通 问题 。 

大 数据 带 给 传统 行业 的 除了 管理 、 构 架 、 方 式 等 颠覆 性 的 改变 外 ， 更 让 人 震撼 的 莫 过 于 
大 数据 和 互联 网 带 来 的 跨 界 颠 覆 。 腾 讯 率 先 抢 获 移动 互联 网 的 门票 ， 促 使 电信 运营 商 趋 于 管 
道 化 。 在 大 数据 时 代 ，“ 前 向 免费 圈 数 据 ， 后 向 创新 来 变现 ”成 为 新 的 玩法 ， 企 业 家 和 投资 
人 需要 重新 审视 产业 和 企业 的 投资 价值 、 护 城 河 意义 与 核心 竞争 力 。 

在 以 往 传统 的 行业 中 ,一 般 都 只 果 着 行业 对 手 ， 就 像 三 星 盯 着 苹果 ， 联 想 盯 着 戴尔 ， 百 度 
时 着 谷歌 。 然 而 如 今 是 跨 界 竞争 时 代 ， 跨 界 竞争 常 令 对 手 防不胜防 ， 企 业 尤 其 需要 注意 跨行 业 技 
术 的 颠覆 ， 这 常 使 竞争 对 手 双 方 在 遭遇 跨 界 颠 覆 时 都 一 片 刁 然 。 比 如 ， 数 码 相 机 对 柯达 胶卷 的 颠 
覆 ， 导 航 系统 的 普遍 应 用 对 传统 地 图 的 颠覆 ， 还 有 特 斯 拉 开放 专利 技术 也 是 对 汽油 车 的 颠覆 。 

随 着 大 数据 分 析 挖掘 技术 的 发 展 ， 原 本 与 股票 行业 毫 无 关系 的 社交 网 络 及 微 博 客服 务 的 网 
站 也 开始 横 插 一 脚 。 如 有 学 者 利用 OpinionFinder 和 “情绪 状态 量 表 ” ( POMS ) 这 两 种 不 同 的 情 
绪 跟 踪 工 具 来 分 析 Twitter 上 将 近 1000 万 条 微 博 的 文本 。 结 果 发 现 : 在 这 个 基于 谷歌 的 POMS 测 量 
法 中 ，“ 冷 静 、 警 惕 、 确 信 、 重 要 、 和 善 、 快 乐 ”这 六 种 情绪 里 面 ，“ 冷 静 ” 是 具有 预测 价值 
的 。 单 靠 “ 冷 静 ” 这 一 情绪 指标 就 能 预测 未 来 3 ~ 4 天 道琼斯 工业 平均 指数 的 每 日 收盘 涨 跌 ， 
准确 率 高 达 87.6%。 利 用 大 数据 挖掘 分 析 的 与 情 已 经 成 为 资本 市 场 的 “风向 标 ”。 

大 数据 时 代 ， 涉 及 最 广 、 影 响 最 深 的 行业 里 面 ， 金 融 行业 首 推 第 一 。 易 欢 欢 去 年 作 了 一 
份 行业 报告 ， 该 报告 被 誉 为 中 国 2013 年 影响 力 最 大 的 一 份 行业 深度 报告 : 大 数据 时 代 的 路 界 
与 颠覆 一 一 金融 业 门 口 的 野 变 人 @。 报 告 里 详细 分 析 了 在 大 数据 和 互联 网 的 冲击 下 ， 传 统 金 
融 行业 所 遭遇 的 巨大 挑战 和 面临 的 新 对 手 、 新 模式 。 

伴随 着 大 数据 及 互联 网 的 迅猛 发 展 与 广泛 普及 ， 越 来 越 多 的 互联 网 企业 开始 跨 界 涉足 金 
融 业 ， 此 期 间 涌 现 了 大 量 的 初创 企业 ， 给 传统 金融 业 的 多 个 领域 带 来 了 较 大 的 冲击 。 传 统 金 
融 机 构 ( 银行 、 基 金 、 保 险 、 证 券 从 支付 结算 到 投 融 资 服务 ， 再 到 流通 货币 ) 等 均 无 一 能 幸 
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免 ， 渗入 范围 日 益 扩大 ， 并 开始 向 金融 业 的 核心 领域 进行 拓展 。 如 ， 马 云 在 2012 年 9 月 的 网 
商 大 会 上 特别 提出 三 大 业务 即 平台 、 数 据 及 金融 ， 而 后 ， 在 金融 业务 领域 上 ， 阿 里 巴巴 展开 
了 一 系列 的 动作 及 布局 。 其 实 早 在 2011 年 4 月 ， 支 付 宝 就 与 10 家 银行 如 工商 银行 、 中 国 银行 、 
农业 银行 和 建设 银行 等 联手 大 力 推出 “快捷 支付 。、， 有 效 打破 了 网 银 交 易 的 额度 限制 ， 快 捷 
支付 摆脱 了 银行 的 束缚 ， 不 再 需要 对 银行 的 网 关 进 行 链接 ， 牢 牢 地 抓 了 海量 终端 用 户 的 消费 
数据 ， 与 此 同时 ， 还 使 得 银行 不 得 不 与 支付 宝 分 享 其 核心 客户 的 数据 资源 。 消 费 者 对 于 “ 快 
捷 支 付 ” 的 简便 极其 喜欢 ， 这 从 仅 推出 7 个 月 ， 用 户 数 就 已 经 突破 两 千 万 这 一 数据 即 可 罕见 
一 斑 。 截 至 2012 年 10 月 ， 与 支付宝 合作 的 银行 机 构 已 经 超过 了 100 家 ,用户 数量 更 是 超过 了 1 
亿 。 从 一 开始 的 网 银 通 道 ， 拓 展 到 新 型 的 业务 如 快捷 支付 等 ， 支 付 宝 对 虚拟 账户 及 用 户 数 据 
进行 截流 ， 并 把 这 紧 紧 抓 在 手中 ， 支 付 宝 已 不 仅仅 承担 着 银行 的 渠道 功能 ， 开 始 实现 被 动 与 
主动 之 间 的 转换 ， 甚 至 慢 慢 成 为 主角 。 

同样 ， 阿 里 巴巴 的 金融 业务 一 一 阿里 小 贷 ， 借 助 阿里 巴巴 ( B2B ) 、 支 付 宝 、 淘 宝 等 多 
个 平台 长 年 积攒 的 大 量 数 据 ， 对 小 微 企 业 的 风险 问题 有 效 地 进行 控制 ， 并 通过 互联 网 的 流水 化 
及 批量 化 作业 ， 大 大 降低 了 业务 的 成 本 。 阿 里 小 贷 领先 创造 了 从 风险 审核 到 放贷 的 全 程 线 上 模 
式 ， 通 过 多 维 数据 交叉 验证 、 关 联 规则 分 析 等 技术 进行 风险 评估 ， 构 成 风险 控制 的 双 保险 。 同 
时 ， 阿 里 小 贷 还 凭借 互联 网 技术 监控 贷款 的 流向 ， 实 现 精细 化 管理 ， 例 如 客户 若 将 贷款 用 于 扩 
展 经 营 ， 阿 里 小 贷 将 会 对 其 广告 投放 、 上 店铺 装修 和 销售 进行 评估 和 监控 。 阿 里 小 贷 凭借 着 其 独 
特 的 商业 创新 与 竞争 优势 ， 在 小 微 企业 融 资 领域 中 快速 地 发 展 起 来 。 根 据 相关 数据 显示 ， 仅 
仅 在 2013 年 一 季度 ， 阿 里 小 微 金融 放贷 金额 达到 120 亿 元 ， 有 超过 100 万 笔 的 发 放贷 款 , 平均 
单 笔 贷款 额度 大 概 为 1.1 万 元 。 相 似 的 是 ,美国 的 Lending Club 公 司 对 借贷 人 评分 的 主要 根据 
是 其 社会 安全 号 码 、 信 用 报告 ( 报告 内 容 包含 三 年 的 信用 记录 历史 等 ) 以 及 FICO 评 分 ( FICO 
分 数 区 间 为 300 ~ 850， 要 求 高 于 660 分 ) 等 内 容 综 合 进 行 ， 为 资金 供求 双方 构建 了 一 个 便捷 的 
大 数据 平台 ,金融 交易 与 以 往 相 比 ， 其 成 本 更 低 、 而 效率 却 更 高 ， 这 不 止 扩大 了 服务 人 群 的 
范围 及 数量 ,还 加 速 了 金融 脱 媒 的 进程 ， 握 弃 了 对 传统 金融 中 介 ( 银行 等 ) 的 依赖 。 

又 如 ， 中 国 起 步 于 2007 年 的 P2P 网 络 借贷 ， 有 着 非常 迅猛 的 发 展 态势 。 一 批 新 兴 P2P 网 
络 借贷 公司 如 拍 拍 、 红 岭 创 投 、 宣 信 、 贷 帮 等 顺势 而 生 ， 不 少 传统 巨 鲍 开 始 在 P2P 市 场 上 大 
施 拳 脚 。 但 是 ， 中 国 对 于 这 个 行业 的 监管 政策 目前 几乎 处 于 空白 ， 高 利 贷 、 非 法 集资 、 庞 氏 
骗局 等 违法 行为 有 可 能 借助 P2P 网 络 借贷 展开 。 从 中 国 最 严谨 网 络 借贷 平台 一 一 哈哈 贷 的 禾 
然 倒 闭 到 不 久 前 的 “ 优 易 网 ”忽然 跑 路 ， “倒闭” 事件 与 “ 卷 钱 跑 路 ”事件 在 P2P 网 络 借贷 
不 时 发 生 ， 揭 示 着 该 行业 缺乏 准 入 门槛 和 行业 标准 ， 故 而 市 场 上 鱼龙混杂 、 良 鞠 不 齐 ， 为 该 
行业 的 发 展 蒙 上 了 一 层 阴 影 。 玻 待 解决 的 重大 难题 除了 政策 棱 档 之 外 ， 另 外 一 个 就 是 信用 风 
险 。 在 国外 能 够 轻松 查找 出 个 人 完整 的 信息 及 其 信用 档案 ， 而 在 我 国 ， 控 制 个 人 征 信 系统 的 
是 中 国人 民 银 行 ， 能 进行 查询 的 唯 有 银行 金融 机 构 ， 并 且 这 信息 本 身 也 不 是 很 健全 ， 这 导致 
P2P 网 络 借贷 面临 的 风险 将 更 大 。 实 际 上 ， 大 数据 技术 有 望 破解 这 一 难题 ， 其 中 有 两 项 重要 
的 任务 : 一 是 如 何 获得 更 多 关于 借贷 双方 的 数据 信息 ( 特别 是 借款 人 ) ; 二 是 如 何 很 好 地 将 
数据 信息 融合 到 实际 业务 运作 之 中 。 美 国 Lending Club 引 入 网 络 社交 元 素 和 中 国 宜 信 重 点 布局 
线 下 业务 ， 均 能 对 服务 对 象 数据 信息 的 来 源 渠 道 进 行 扩 大 。 并 且 随 着 时 间 的 推移 ， 针 对 每 一 
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个 用 户 P2P 网 络 借贷 平台 都 会 建立 一 个 信用 记录 档案 ， 相 信 伴 随 着 国家 相关 数据 的 开放 、 数 
据 来 源 的 丰富 以 及 平台 数据 的 积累 ， 我 们 将 会 逐步 解决 P2P 网 络 借贷 的 数据 获取 问题 。 紧 接 
着 应 该 建立 一 套 适 用 于 大 数据 的 业务 模式 ， 特 别 是 在 对 应 利率 设置 、 信 用 风险 评估 和 关键 流 
程 设计 方面 ， 仅 仅 利用 大 数据 技术 是 不 足以 解决 问题 的 ， 还 需要 企业 立足 于 金融 产业 ， 深 度 
地 融合 统一 金融 与 技术 9。 

总 而 言 之 ， 大 数据 时 代 ， 中 国 金融 业 在 新 兴 信息 技术 和 国家 大 资 管 政策 促使 下 ， 其 竞争 
日 趋 激烈 ， 而 最 终 胜出 的 企业 必然 在 金融 与 数据 信息 处 理 方面 都 具有 强大 的 能 力 。 


8.6.2 大 数据 时 代 ， 全 新 的 投资 理念 和 巨大 的 投资 机 会 


随 着 大 数据 时 代 的 到 来 ， 越 来 越 多 的 企业 将 基于 大 数据 资产 进行 商业 模式 的 创新 ， 甚 至 
跨 界 涉足 其 他 产业 ， 并 对 该 产业 形成 巨大 的 冲击 。 金融 、 电 信 、 教 育 、 医 疗 等 各 个 产业 未 来 
都 将 感受 到 大 数据 的 颠覆 力量 ( 图 8.1 所 示 是 大 数据 颠覆 的 传统 行业 ) 。 而 在 这 个 过 程 中 将 会 
衍生 出 两 大 新 的 投资 的 机 遇 : 一 是 互联 网 企业 传统 产业 化 ,大量 互联 网 企业 将 基于 大 量 的 用 
户 和 数据 资产 进行 跨 界 变现 ; 二 是 传统 产业 互联 网 化 ， 面 对 新 进入 者 的 冲击 ， 传 统 产业 中 的 
企业 将 会 积极 进行 自我 变革 ， 加 大 IT 投入 ， 进 而 带动 相关 IT 服务 企业 的 增长 。 现 今 ， 大 数据 
的 价值 在 金融 领域 尚 无 明显 的 体现 ， 但 大 数据 技术 核心 之 一 的 数据 挖掘 是 近年 来 极为 重要 的 
投资 领域 ， 随 着 大 数据 的 发 展 ， 这 项 创新 的 分 析 广 度 及 速度 都 会 大 幅度 地 提升 。 阿 里 金融 已 
经 在 传统 金融 领域 中 ， 得 到 了 行业 的 广泛 关注 。 阿 里 金融 低廉 的 信贷 征 信 成 本 对 中 国 现 有 的 


甸 本 四 国 上 本 站 颠覆 传统 产业 


人 金融、 电信、 教育、 医疗、 零售、 政府 …… 
移动 互联 网 


大 数据 


图 8.1 ”大 数据 颠覆 传统 行业 
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金融 机 构 和 模式 产生 了 巨大 的 影响 。 目 前 证 券 公司 建立 了 的 客户 关系 管理 系统 ， 该 系统 通过 
对 客户 交易 行为 进行 分 析 ， 控 掘 其 风险 偏好 ， 从 而 进行 合理 的 资产 配置 推荐 ， 这 个 管理 系统 
当前 尚 处 于 运用 初期 ， 相 信 在 未 来 会 有 广阔 的 发 展 前 景 ?。 

大 数据 时 代 给 我 们 带 来 了 巨大 的 变化 ， 网 民 和 消费 者 的 界限 、 企 业 的 疆界 都 在 逐渐 变 
得 模糊 ， 数 据 但 然 已 成 为 核心 的 资产 ， 并 将 对 企业 的 业务 模式 造成 深远 的 影响 ， 甚 至 重 构 其 
文化 和 组 织 。 可 以 毫 不 夸张 地 说 ， 大 数据 将 对 国家 的 治理 模式 、 企 业 的 决策 、 组 织 及 业务 流 
程 、 对 个 人 生活 方式 都 将 产生 重大 的 影响 。 如 果 无 法 利用 大 数据 进一步 贴近 消费 者 、 深 刻 了 
解 客户 需求 、 有 效 分 析 信息 并 作出 预测 决策 ， 传 统 的 产品 公司 极 可 能 沦 为 新 型 用 户 平 台 级 
公司 的 附庸 ,管理 也 无 法 逆转 其 衰落 2。 因 此， 新 一 轮 信息 化 投资 与 建设 热潮 将 被 大 数据 引 
发 。 根 据 互联 网 数据 中 心 预测 ，2020 年 ， 全 球 总 共 拥 有 的 数据 量 将 达到 35ZB， 麦 肯 锡 则 预测 
未 来 大 数据 产品 在 三 大 行业 的 应 用 中 将 产生 七 千 亿美 元 的 潜在 市 场 ， 而 中 国 大 数据 产品 的 潜 
在 市 场 规模 极 有 可 能 达到 1.57 万 亿 元 ，IT 行 业 将 迎 来 一 个 新 的 黄金 时 代 。 设 备 提供 商 与 数据 
处 理 技术 ，ERP、BI、CRM 改 造 服务 商 与 IT 系统 咨询 ， 信 息 安全 提供 商 以 及 智能 化 和 人 机 交 
互 应 用 等 都 将 获 庞大 需求 ， 相 应 公司 将 获得 巨大 的 机 会 。 

鉴于 国际 巨头 在 硬件 层 和 基础 软件 层 具有 明显 的 垄断 优势 ， 本 土 的 企业 将 主要 依赖 于 对 
客户 需求 的 了 解 与 客户 资源 优势 以 及 本 地 化 服务 的 优势 ， 在 应 用 软件 层 获 利 ， 而 拥有 大 数据 
处 理 、 挖 掘 技术 、 数 据 资产 和 数据 分 析 人 才 的 公司 将 在 竞争 中 更 具 优势 8 。 

未 来 的 成 功 企业 必 然 兼 具 传 统 产业 和 互联 网 技术 与 思想 双重 基因 ， 谁 能 快速 补足 短 板 ， 
谁 就 更 有 可 能 胜出 。 


上 8.7 练习 


1. 统计 预测 的 方法 包含 哪些 ? 

2. 统计 决策 的 概念 是 什么 ? 

3. 大 数据 预测 决策 的 关键 点 有 哪些 ? 

4. 在 大 数据 时 代 下 我 国政 府 应 如 何 迎 接 挑 战 ? 

5. 在 大 数据 时 代 下 政府 公共 管理 水 平 的 变革 主要 体现 在 哪些 方面 ? 
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大 数据 与 市 场 营销 


随 着 海量 数据 时 代 的 到 来 ， 数 据 的 重要 性 日 益 凸 显 ， 对 于 市 场 营销 而 言 ， 大 数据 为 营销 
人 员 确 定 营 销 策略 ， 量 化 营销 效果 提供 了 有 力 的 技术 支持 ， 同 时 也 在 高 管 层 为 首席 营销 官 赢 
得 了 一 席 之 地 。 大 数据 技术 将 从 各 个 层面 改变 传统 的 市 场 营 销 ， 迎 来 市 场 营销 的 全 新 时 代 


上 9.1 大 数据 时 代 的 营销 模式 创新 


2011 年 ， 美 国 著名 电视 问答 节目 《Jeopardy》 历 史上 最 厉害 的 两 位 选手 都 被 超级 计算 机 
Watson 击败 ， 而 Watson 也 因此 一 举 成 名 。Watson 可 以 采用 极 快 的 速度 处 理 数 百 万 份 以 人 类 文 
字 语 言 书写 的 文件 。 通 常 电脑 只 能 轻松 地 处 理 传统 数据 库 中 的 数据 文件 ， 但 Watson 的 厉害 之 
处 在 于 它 可 以 阅读 网 站 中 的 信息 、 新 闻 报告 、 电 子 邮 件 等 这 类 非 结构 性 文件 。 为 此 ， 花 旗 银 
行 花费 巨额 聘请 Watson， 借 用 它 能 够 处 理 非 结构 性 文件 的 能 力 来 帮助 花旗 银行 作出 决定 。 比 
如 应 该 对 特定 的 客户 提供 哪些 新 的 产品 与 服务 ， 降 低 欺诈 案件 概率 ， 以 及 搜寻 哪些 客户 有 信 
用 度 降低 的 迹象 ， 这 或 许 是 Watson 的 第 一 份 工 作 。 

但 这 也 仅 是 大 数据 时 代 的 故事 之 一 2。 


9.1.1 ”营销 模式 的 突出 优势 

数据 生产 及 收集 能 力 和 速度 的 大 幅 提 升 掀起 了 “大 数据 ”热潮 ， 然 而 在 营销 领域 ， 大 数 
据 的 实践 才刚 刚 开 始 。 事 实 上 ， 数 字 浪 潮 的 到 来 ， 给 消费 者 带 来 了 直接 而 深远 的 影响 。 立 身 
于 数字 的 时 代 ， 消 费 者 将 更 加 独立 ， 其 自主 意识 逐渐 增强 ,已 经 不 再 容易 相信 传统 营销 “ 故 
炸 式 ” 的 传播 和 灌输 。 相 反 地 ， 一 种 新 气象 将 会 取而代之 ， 消 费 者 将 会 越 来 越 喜欢 质疑 产品 
和 品牌 ， 喜 欢 在 网 络 上 发 表 个 人 的 意见 ， 这 无 形 之 中 会 给 其 他 人 造成 一 定 的 影响 。 此 外 ,他 
们 会 愈 来 愈 关注 个 人 对 品牌 的 价值 ， 渴 望 品牌 能 够 针对 他 们 的 意见 和 疑问 迅速 做 出 回应 。 若 
此 时 企业 或 厂商 对 于 他 们 的 观点 采取 漠视 的 态度 ， 无 疑 会 造成 关注 人 群 的 大 量 流失 ， 在 这 种 
时 代 环 境 下 ， 传 统 形式 的 营销 模式 传播 日 显 “ 疲 态 ”。 

以 前 ,很 多 人 都 愿意 相信 这 样 一 句 话 : 中 国 拥 有 13 多 亿 人 口 ， 即 使 一 个 人 仅仅 消费 一 
元 钱 ， 那 对 于 市 场 来 说 也 是 巨大 的 价值 。 可 是 如 今 ， 人 们 终于 清晰 而 深刻 地 认识 到 ， 中 国 的 
13 多 亿 人 口 拥有 的 消费 模式 会 因为 其 收入 、 年 龄 、 地 域 、 文 化 以 及 生活 方式 等 的 差异 而 千 变 


©® http://blog.sina.com.cn/s/blog_77217ab501017w76.html 
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万 化 。 传统 的 营销 模式 给 予 营 销 人 员 两 大 坚定 的 信念 一 一 营销 和 品牌 。 可 是 ， 究 竟 是 怎样 的 
市 场 营销 模式 以 及 品牌 传播 策略 才 是 真正 有 效 的 呢 ? 相关 调查 显示 ， 如 今 中 国企 业 对 营销 和 
品牌 的 理解 还 不 够 透彻 ， 这 样 带 来 的 结果 便 是 营销 人 员 在 实际 工作 中 对 这 些 理念 的 应 用 不 到 
位 ， 主 要 体现 在 企业 营销 理念 的 陈旧 落后 、 企 业 专职 营销 部 门 设置 的 空缺 以 及 营销 人 员 专 业 
知识 技能 的 匮乏 ， 营 销 管理 技 术 和 工具 的 缺乏 等 。 无 独 有 偶 ， 近 期 《哈佛 商业 评论 》 中 的 一 
篇 文章 更 加 犀利 直 白 地 道 出 《传统 营销 之 死 》， 文章 中 提 及 涵盖 广告 宣传 、 品 牌 管理 、 
公共 关系 以 及 企业 传媒 在 内 的 传统 营销 手段 已 经 失效 。 科 技 的 日 新 月 异 ， 社 交 媒 体 环境 的 日 
益 发 展 和 壮大 ， 传 统 的 营销 模式 面 对 的 无 疑 是 一 场 声势 浩大 的 革新 ， 数 字 时 代 的 滚滚 浪潮 将 
人 们 关注 的 焦点 渐渐 推 向 了 “大 数据 ”。 

在 大 数据 时 代 还 没 来 临 前 ， 人 们 一 般 利用 的 是 传统 的 营销 数据 ， 包 括 客 户 关 系 管理 
( Customer Relationship Management，CRM ) 系统 中 的 客户 信息 、 广 告 效 果 、 展 览 等 一 些 线 
下 活动 的 效果 。 这 些 数据 源 提供 的 是 消费 者 某 一 方面 有 限 的 信息 ， 远 不 足以 给 出 一 个 充分 的 
提示 和 线索 。 现 在 ， 另 外 一 批 信息 数据 正 逐 渐 占 领 了 大 众 的 视野 ， 包 括 官 方 网 站 登录 数据 、 
地 理 位 置 数据 、 邮 件数 据 、 社 交 媒 体 数据 等 。 这 些 非 结构 化 数据 ， 它 们 更 多 地 以 文字 、 视 频 
或 者 图 片 的 方式 出 现 8， 而 且 是 层出不穷 ,来势 测 测 。 若 将 传统 数据 和 非 结 构 性 数据 进行 对 
接 ， 并 且 能 够 保持 实时 地 更 新 ， 那 么 营销 的 游戏 规则 将 会 发 生 翻 天 覆 地 的 变化 ， 人 们 将 迎 来 
大 数据 时 代 营 销 模式 的 一 场 巨大 变革 。 根 据 IDC ( 国际 数据 中 心 ) 和 麦肯锡 对 大 数据 研究 结 
果 的 总 结 ， 大 数据 主要 能 在 以 下 四 个 方面 挖掘 出 巨大 的 商业 价值 : 对 顾客 群体 细 分 ， 然 后 对 
每 个 群体 量体裁衣 般 地 采取 专门 的 行动 ; 运用 大 数据 模拟 实 境 ， 发 掘 新 的 需求 和 提高 投入 回 
报 率 ; 提高 大 数据 成 果 在 各 相关 部 门 的 分 享 程度 ， 提 高 整个 管理 链条 和 产业 链条 的 投入 回报 
率 ; 进行 商业 模式 、 产 品 和 服务 的 创新 。 在 碎片 化 的 网 络 世界 ， 营 销 者 需要 在 表象 的 分 散 和 
碎片 背后 ， 找 到 那些 因 兴 趣 或 者 共同 的 需求 而 重新 聚集 起 来 的 东西 ， 如 果 能 捕捉 到 这 种 注意 
力 ， 就 会 找到 新 的 集中 点 。“ 大 数据 ”就 是 这 个 趋势 实现 过 程 中 的 利器 。 

1. 更 快 、 更 低 成 本 的 数据 采集 

在 社会 科学 领域 里 通常 是 采用 抽样 的 方式 来 研究 消费 者 。 具 体 而 言 ， 就 是 遵循 随机 或 者 
配额 的 原则 去 寻找 消费 者 ， 并 且 采 用 调查 的 手段 来 获得 数据 。 显 然 ， 这 种 方式 对 于 小 量 的 数 
据 是 适用 的 ， 然而， 在 大 数据 时 代 下 ， 人 们 会 依赖 实时 监测 的 方式 或 者 追踪 消费 者 在 互联 网 
上 产生 的 海量 行为 数据 ， 整 个 过 程 的 优势 就 在 于 快速 以 及 趋 于 零 的 成 本 。 

2. 更 完整 的 消费 者 描述 


社会 化 的 滚滚 浪潮 驱动 传统 互联 网 平台 逐渐 向 社会 化 方向 转型 ， 和 以 前 不 同 的 是 ， 消 费 
者 越 来 越 喜 欢 在 微 博 、 论 坛 、 社 交 网 络 上 讨论 产品 和 品牌 这 些 日 积 月 累 的 数据 对 于 营销 者 
来 说 尤其 珍贵 。 通 过 丰富 的 消费 者 数据 ， 比 如 地 理 追踪 数据 、 社 交 数 据 和 网 站 浏览 数据 等 ， 
可 以 更 好 地 完善 消费 者 的 信息 。 英 国 GSK 公 司 就 已 经 开始 尝试 定位 那些 谈论 过 旗下 子 品牌 的 
人 们 ,并 且 对 这 些 人 在 公开 论坛 上 所 谈 到 的 所 有 其 他 内 容 进行 追踪 ， 再 据 此 建立 消费 者 描 
述 ， 并 不 断 完善 ， 然 后 合理 地 对 营销 部 门 已 有 的 数据 与 获得 的 外 部 数据 进行 有 效 地 整合 ， 从 
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而 设 定 更 加 精准 的 促销 及 优惠 ， 吸 引 更 多 的 消费 者 来 到 对 应 的 子 品牌 网 站 了?， 这 无 疑 会 给 该 
品牌 带 来 更 大 的 市 场 号 召 力 。 

3. 对 原 有 营销 方式 价值 的 再 次 发 掘 

IBM 的 一 个 商业 合作 伙伴 正在 进行 一 项 研究 ， 该 研究 希望 将 呼叫 中 心 产生 的 所 有 对 话 转 
换 成 文字 ， 从 而 能 够 实现 对 这 一 营销 渠道 的 数据 挖掘 。 如 果 该 项 研究 能 顺利 实行 ， 则 能 够 让 
市 场 部 门 轻 易 获 得 之 前 所 没有 的 对 消费 者 的 洞察 力 ， 同 时 了 解 消费 者 对 新 产品 的 回应 以 及 对 
品牌 的 感受 。IBM 新 兴 技 术 项 目 总 监 Peter Waggett 认 为 更 深入 的 数据 挖掘 能 够 帮助 许多 公司 找 
到 商业 问题 的 解决 方案 。 

4. 更 精细 的 消费 者 细 分 


消费 者 细 分 并 不 是 一 个 新 鲜 的 概念 。 传 统 的 营销 多 数 是 以 人 口 统计 学 特性 来 归纳 总 结 目 
标 消费 者 的 ， 但 是 诸如 消费 习惯 、 心 理 特征 、 兴 趣 爱好 这 样 的 数据 则 需要 依赖 第 三 方 的 市 场 
调查 公司 。 借 助 于 大 数据 技术 以 及 更 好 的 分 析 工 具 ， 营 销 者 可 以 无 限 接近 ， 其 至 近乎 准确 地 
判断 每 一 个 人 的 属性 ， 从 而 对 消费 者 进行 细 分 ， 真正 做 到 个 性 化 划分 ， 而 不 再 是 简单 的 划分 
群体 。 例 如 零售 商 Williams Sonoma 将 他 们 6000 万 的 客户 数据 库 与 其 家 庭 信 息 链接 起 来 ， 根 据 
这 些 家 庭 的 收入 、 孩 子 数量 及 房屋 价值 等 进行 顾客 精准 划分 ， 基 于 不 同 消费 者 群体 的 选择 偏 
好 和 行为 方式 来 对 其 电子 直 邮 邮件 进行 设 定 。 事 实证 明 ， 根 据 这 些 信息 的 直 邮 邮件 所 获得 的 
反馈 数量 是 没有 进行 精准 化 之 前 数量 的 18 倍 2， 这 足以 证 明 对 消费 者 的 精细 划分 所 能 产生 的 
巨大 价值 。 


9.1.2 营销 模式 的 创新 之 举 

事实 上 ， 以 客户 为 中 心 的 营销 模式 ， 在 提 法 上 早已 不 新 鲜 了 ， 但 问题 的 关键 在 于 ， 企 业 
所 遵循 的 营销 模式 是 否 真 的 “以 人 为 本 ”。 事 实 上 ， 我 们 已 经 非常 明确 这 个 新 模式 是 什么 样 
子 ， 同 时 很 多 企业 也 已 经 开始 使 用 这 种 模式 。《 哈 佛 商 业 评 论 》 就 曾 总 结 出 以 下 关键 点 ®。 

1. 恢复 社区 营销 

实际 上 ， 只 要 能 够 恰当 地 运用 社交 媒体 ， 购 买 者 在 当地 社区 寻求 购买 体验 的 趋势 就 会 被 
加 速 。 辟 如 说 ， 当 消费 者 想 要 购买 一 台 全 自动 洗衣 机 ， 或 者 是 想 要 打听 一 位 医生 时 ， 选 择 去 
找 销售 员 商量 ， 抑 或 是 到 某 公司 网 站 上 去 了 解 内 容 显然 是 不 可 行 的 。 一 般 情况 下 ， 很 多 人 都 
会 倾向 于 向 邻居 或 是 朋友 打听 一 一 这 属于 个 人 的 关系 网 络 ， 通 常 可 以 在 私人 的 关系 网 络 里 面 
获得 自己 满意 的 答案 。 

企业 家 们 应 当 尽 可 能 地 将 自己 在 社交 媒体 上 的 努力 用 于 复制 这 些 社区 指向 的 购买 体验 。 
而 与 Facebook 相 似 的 社交 网 络 公司 则 更 应 该 把 它 作为 自己 的 优势 一 通过 扩大 消费 者 自己 的 
关系 网 络 ， 让 越 来 越 多 的 人 提供 他 们 对 某 件 产品 或 者 服务 的 购买 体验 。 例 如 ， 一 家 新 成 立 的 
公司 就 能 够 让 忠实 的 顾客 们 在 社交 平台 上 轻松 愉快 地 帮助 他 们 做 免费 宣传 。 该 公司 首先 采取 
必要 的 调查 ， 只 要 某 个 客户 在 接受 调查 时 表示 自己 能 够 做 “推荐 人 ”， 公 司 就 会 立刻 给 他 们 
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发 一 张 表 格 ， 邀 请 他 们 在 某 些 社交 网 站 上 填写 对 产品 的 使 用 感受 或 推荐 。 当 填写 完成 后 ， 该 
公司 再 将 它 转移 到 某 一 指定 网 站 ,然后 “推荐 人 ”的 交际 圈 很 快 就 会 知道 他 对 该 公司 的 看 
法 ,最终 这 家 公司 可 以 轻易 地 达到 宣传 的 目的 。 

2. 找到 可 以 影响 客户 的 人 

许多 公司 都 将 大 量 的 资源 耗费 在 追求 外 在 的 影响 者 方面 ， 比 如 那些 所 谓 的 网 络 红 人 。 其 
实 相对 于 这 种 方式 ， 去 寻找 和 培养 能 够 影响 目标 客户 的 人 ， 再 让 这 些 能 影响 目标 客户 的 人 来 
帮忙 做 宣传 将 是 更 好 的 选择 。 实 际 上 这 里 就 涉及 了 一 种 全 新 的 顾客 价值 观 ， 它 并 不 是 仅仅 基 
于 客户 的 购买 量 ， 这 是 与 顾客 生命 周期 价值 的 不 同 之 处 。 商 家 常会 用 金钱 作为 衡量 客户 价值 
的 标准 ， 殊 不 知 除了 金钱 之 外 ， 这 个 标准 的 覆盖 面 应 该 是 非常 广 的 。 例 如 ， 某 个 顾客 受到 多 
少 的 尊重 ， 顾 客 的 关系 网 络 对 公司 的 战略 影响 以 及 其 影响 力 的 大 小 等 。 微 软 的 MVP ( 最 有 价 
值 专家 ) 成 员 中 有 一 位 名 为 “Excel 先 生 ” 的 成 员 ， 他 网 站 的 访问 量 有 时 候 甚 至 会 超过 微软 的 
Excel 专 栏 服务 界面 中 的 访问 量 ， 据 此 不 难 推测 出 他 对 微软 有 着 极其 重要 的 价值 。 于 是 ， 微 软 
开始 进行 一 些 尝 试 ， 例 如 给 这 位 Excel 先 生 透露 一 些 内 部 消息 ， 并 且 让 他 可 以 提前 试用 微软 的 
一 些 新 产品 。 而 Excel 先 生 和 其 他 的 MVP 们 则 利用 他 们 的 影响 力 帮 助 微软 开拓 新 的 市 场 来 作为 
回报 ， 这 在 某 种 程度 上 给 微软 节省 了 很 多 成 本 。 

3. 帮助 他 们 建立 社会 资本 

当然 ， 新 型 社区 导向 型 营销 的 实践 者 们 可 能 会 反思 这 种 利用 MVP 的 顾客 价值 主张 。 在 
以 往 ， 营 销 为 了 获得 顾客 的 支持 通常 用 的 是 金钱 奖励 、 礼 品 、 折 扣 或 者 其 他 小 奖励 ， 而 这 种 
新 的 营销 方式 却 另 辟 蹊 径 ， 努 力 帮助 拥护 者 和 有 影响 力 的 人 建立 社会 资本 ， 比 如 让 他 们 收获 
新 的 知识 ， 提 高 他 们 的 声誉 ， 帮 助 他 们 建立 社交 关系 等 ， 这 些 都 是 “影响 者 ”渴望 得 到 的 。 
某 公司 曾经 与 他 们 的 顾客 影响 者 一 一 一 个 IT 公 司 的 中 层 经 理 合 作 ， 这 是 一 种 特殊 的 创造 性 方 
法 ,通过 向 他 们 提供 财务 证 明 与 强大 的 研究 ， 这 些 经 理 在 向 他 们 的 高 层 展示 这 个 公司 战略 优 
势 的 同时 ， 也 获得 了 能 够 接触 最 高 管理 层 的 机 会 。 与 此 同时 ，IT 公 司 的 中 层 管理 者 的 声誉 也 
会 随 之 提高 ， 他 们 会 被 认为 是 可 以 为 高 层 带 来 新 启发 的 战略 思想 者 ， 而 这 种 双赢 的 战略 效果 
正 是 双方 共同 期 待 的 。 

4. 让 拥护 你 的 客户 参与 你 的 解决 方案 

数 年 前 ， 美 国 青少年 吸烟 的 人 数 越 来 越 多 ， 达 到 了 警戒 值 ， 为 此 佛罗里达 州 对 他 们 为 组 
解 该 问题 而 做 出 的 长 达 十 年 之 久 的 努力 重新 进行 了 反思 ， 人 们 认为 没有 什么 会 比 说 服 青少年 
戒烟 更 困难 的 了 ， 因 此 当时 很 多 人 对 此 事 并 不 看 好 。 然 而 佛罗里达 州 通过 建立 同伴 之 间 可 相互 
影响 的 社区 ， 竞 然 解 决 了 青少年 吸烟 这 个 问题 。 他 们 首先 寻找 一 些 学 生 运 动员 、 领 袖 或 者 外 表 
上 酷 劲 十 足 的 孩子 ， 这 些 人 在 青少年 中 有 很 大 的 影响 力 。 接着 将 这 些 人 分 为 两 类 ， 一 类 是 不 
抽烟 的 ， 而 另 一 类 是 想 戒 烟 的 。 之 后 ， 他 们 会 请 求 这 些 学 生 参与 并 帮助 想 戒烟 的 学 生 ， 而 不 
仅仅 是 传达 一 个 信息 ?。 这 的 确 是 一 个 引 人 注 目的 例子 ,虽然 涉及 的 内 容 仅 仅 是 青少年 的 吸 
烟 问题 ， 但 是 该 方法 的 成 功 无 疑 证 实 了 “让 用 户 参 与 你 的 解决 方案 ”的 必要 性 和 重要 性 。 
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9.2 大 数据 时 代 下 的 网 络 化 精准 营销 


我 们 可 以 设想 这 样 一 个 场景 : 当 某 个 顾客 进入 店铺 后 ， 零 售 商 搜索 公司 的 数据 库 ， 如 果 
发 现 这 位 顾客 是 有 价值 及 其 希望 留 住 的 顾客 ， 那 么 零售 商 就 可 以 通过 顾客 过 去 的 购物 历史 与 
微 博 主页 综合 起 来 获得 综合 的 信息 ， 来 了 解 需要 花费 多 少 钱 才 能 留 住 这 位 顾客 ， 进 而 确定 所 
售卖 物品 的 合适 价格 以 及 零售 商 能 够 退让 的 利润 空间 ， 从 而 针对 这 位 顾客 提供 个 性 化 的 沟通 
方式 和 最 佳 的 优惠 策略 。 这 使 得 营销 者 能 够 在 一 个 恰当 的 时 间 和 恰当 的 渠道 将 最 合适 的 产品 
和 营销 提供 给 一 个 潜在 用 户 或 者 老 客户 ， 这 就 是 最 终 的 精准 化 营销 的 实现 ?。 

受 经 济 全 球 化 和 全 球 信息 化 、 人 类 社会 发 展 和 需求 多 样 性 、 云 计算 和 物 联 网 技术 深化 应 
用 等 方面 的 影响 ， 大 数据 已 经 成 为 IT 领域 和 互联 网 上 反复 提 及 的 热 词 。 大 数据 时 代 的 到 来 ， 
使 得 广告 主 对 精准 营销 的 需求 也 日 渐 增 长 。 市 场 经 济 的 产物 是 营销 ， 营 销 的 目的 就 是 给 企业 
找到 市 场 ， 通 过 营销 活动 给 企业 带 来 效益 。 伴 随 着 3G 时 代 的 来 临 ， 信 息 产 业 的 融合 日 益 增 
强 ， 传 统 的 营销 方式 在 一 定 程度 上 被 精准 营销 取代 ， 精 准 营销 将 逐步 占据 企业 营销 的 主导 地 
位 ， 最 终 成 为 现代 企业 营销 发 展 的 新 趋势 。 


9.2.1 精准 营销 概述 


2005 年 ， 世 界 级 营销 大 师 菲 利 普 ， 科 特 勒 教授 第 一 次 提出 了 “精准 营销 ”的 概念 。 所 谓 
精准 营销 ， 就 是 在 精准 定位 的 基础 上 ， 依托 现代 信息 技术 手段 建立 个 性 化 的 顾客 沟通 服务 体 
系 ， 实 现 企 业 可 度量 的 低 成 本 扩张 之 路 。 我 国 精准 营销 理论 体系 创建 者 徐 海 亮 认 为 ， 精 准 营 
销 是 通过 现代 信息 技术 手段 实现 的 个 性 化 营销 活动 ， 通 过 市 场 定量 分 析 的 手段 、 个 性 化 沟通 
实现 企业 对 效益 最 大 化 的 追求 。 按 照 普遍 的 观点 ， 精 准 营销 应 具有 三 个 层面 的 含义 。 第 一 ， 
从 意识 上 说 ,要 有 精准 的 营销 思想 。 营 销 的 终极 追求 是 什么 ? 是 无 营销 的 营销 ， 而 要 达到 这 
种 终极 的 思想 ， 其 必须 的 过 渡 就 是 实现 逐步 精准 。 第 二 ， 在 已 经 树立 了 精准 营销 的 思想 后 ， 
真正 实现 它 ， 还 需要 借助 实施 精准 体系 的 保证 和 手段 ， 而 这 种 手段 是 可 衡量 的 。 第 三 ， 达 到 
低 成 本 可 持续 发 展 的 企业 目标 。 与 传统 营销 相 比 ， 精 准 营 销 具有 更 加 突出 的 优势 ， 见 表 9.1。 

表 9.1 ”传统 营销 与 精准 营销 的 比较 


盲目 地 采用 传单 、 广 告 等 传统 手段 借助 先进 的 网 络 通信 技术 、 数 据 库 技术 等 科技 手段 

中 间 渠 道 杂 多 ， 成 本 较 高 以 现代 高 度 分 散 物流 为 保障 ， 降 低 营销 成 本 | 
缺乏 和 客户 沟通 的 手段 与 顾客 进行 长 期 个 性 化 沟通 | 
局 限于 定性 的 市 场 定位 可 量化 、 精 准 的 市 场 定位 | 
高 成 本 低 成 本 | 


如 表 9.1 所 示 ， 精 准 营 销 中 ， 运 用 先进 的 网 络 通信 技术 与 数据 库 技术 等 手段 ， 能 够 在 长 
期 个 性 化 沟通 方面 让 企业 和 顾客 之 间 达 成 共识 。 并且 为 保持 企业 和 客户 之 间 良 好 的 沟通 以 及 
为 企业 建立 稳定 忠实 的 客户 群英 定 坚 实 的 基础 ， 最 终 能 够 满足 企业 长 期 、 稳 定 以 及 高 速 发 展 
的 迫切 需求 。 得 益 于 现代 高 度 分 散 物流 的 保障 方式 ， 企 业 能 够 摆脱 杂 多 的 中 间 渠 道 环节 ， 并 


名 http:/Wfinance.qq.com/a/20120801/006484.htm 
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且 脱 离 对 传统 的 营销 模块 式 组 织 机 构 的 依赖 ， 真 正 实现 个 性 化 关怀 。 可 量化 的 市 场 定位 技术 
(market test ) 的 采用 ， 使 得 精准 营销 打破 了 传统 营销 仅 能 用 以 定性 的 局 限 。 此 外 ， 精 准 营 销 
真正 使 企业 营销 达到 了 可 调控 、 可 度量 的 要 求 ， 同 时 改变 了 传统 广告 沟通 所 必需 的 高 成 本 ， 
使 企业 能 够 低 成 本 地 快速 增长 ?。 


9.2.2 网络 精 准 营 销 模式 


网 络 的 发 展 为 精准 营销 提供 了 更 加 广阔 的 平台 。 根 据 2012 年 9 月 在 北美 进行 的 一 次 互联 
网 数据 统计 ， 在 一 分 钟 的 时 间 里 ， 全 球 的 电子 邮件 用 户 共计 发 出 了 2 亿 封 电子 邮件 ; 移动 互 
联网 会 增加 217 名 新 用 户 ; Google 会 处 理 200 万 次 的 搜索 ; 消费 者 会 在 购物 网 站 为 电子 数据 支 
付 27.2 万 美元 。 作 为 一 种 新 的 媒体 ， 互 联网 给 世界 带 来 的 转变 不 仅仅 是 字面 上 理解 的 精准 ， 
还 驱动 着 事实 上 的 精准 。 营 销 领域 最 活跃 、 最 具 创 造 力 的 部 分 将 是 基于 互联 网 的 “精准 营 
销 ”。 精 准 营销 主要 的 重心 是 在 网 民 的 行为 特征 与 消费 心理 的 识别 上 ， 一 般 会 从 地 方 生 活 门 
户 网 站 、 专 业 性 门户 网 站 、 专 门 的 信息 网 站 、Email、 微 信 、 微 博 以 及 搜索 引擎 网 站 上 获取 网 
民 的 特征 及 行为 习惯 ,在 此 基础 上 对 网 民 的 消费 意向 进行 推测 ， 并 充分 挖掘 其 消费 潜力 ， 进 
而 “ 投 其 所 好 ”， 针 对 性 地 对 其 进行 特定 的 商业 信息 展现 。 大 数据 时 代 下 的 网 络 化 精准 营销 
正 是 在 先进 的 数据 库 技 术 和 网 络 通讯 技术 基础 上 发 展 起 来 的 新 型 营销 手段 ， 具 有 十 分 光明 而 
广阔 的 前 景 。 那么， 这 种 网 络 化 的 精准 营销 模式 有 哪些 具体 表现 呢 ? 曹 利 菊 等 在 电子 商务 中 
实施 精准 营销 中 的 策略 观点 如 下 。 

1. 网 络 广告 的 精准 传播 

以 往 企业 在 进行 电子 商务 时 ， 采 用 的 投放 方式 是 传统 的 粗放 式 网 络 广 告 ， 然 而 这 并 没有 
给 企业 带 来 相应 的 效果 。 信 息 技术 飞速 发 展 的 今天 ， 随 着 网 络 的 发 展 ， 网 络 广告 形式 也 在 日 
益 丰 富 ， 不 断 创新 ， 相 继 涌 现 了 点 告 、 罕 告 等 新 型 网 络 宣传 方式 。 这 些 宣传 方式 更 加 注重 精 
确 地 选择 目标 客户 ， 最 终 实 现 了 网 络 广告 的 精准 传播 。 

(1) 点 告 。 这 是 一 种 全 新 意义 和 全 新 形式 的 广告 ， 从 字面 上 理解 ，“ 点 告 ”就 是 要 
以 点 而 告 之 取代 广 而 告 之 ,改变 传 统 的 片面 追求 广告 覆盖 面 的 思路 ， 转 向 专注 于 广告 受众 
人 和 群 的 细 分 以 及 受众 效果 。 例 如 企业 可 以 通过 问答 的 形式 把 企业 的 产品 向 目标 群体 推广 ， 
而 目标 群体 则 根据 回答 问题 的 数量 多 少 得 到 不 同 的 利益 ， 最 终 实 现 宣传 的 目的 。 一 般 受 众 
人 和 群 如 果 能 够 注册 成 为 点 告 网 的 用 户 ， 且 在 网 上 答题 即 可 获得 相应 的 积分 ， 再 用 积分 换取 
相应 的 金钱 收入 或 礼品 。 具 体 的 模式 就 是 ， 在 用 户 注册 为 点 告 网 的 用 户 时 ， 填 写 自己 的 职 
业 、 爱 好 等 资料 ， 点 告 网 就 可 以 根据 用 户 填 写 的 个 人 信息 进行 推测 ， 然 后 将 相应 的 题目 推 
荐 给 用 户 ， 继 而 对 受众 进行 自动 分 组 ， 进 一 步 精确 地 区 分 目标 用 户 。“ 点 告 ”与 媒体 存在 
相似 之 处 ， 以 其 精准 性 、 趣 味 性 、 参 与 性 及 深入 性 ， 潜 移 默 化 地 影响 目标 受众 ， 最 终 达 到 
宣传 企业 的 目的 。 

(2 ) 窗 告 。 顾 名 思 义 就 是 与 “广告 ”相对 立 ， 这 是 一 种 把 商品 信息 有 针对 性 地 投放 到 
企业 想 要 传递 到 的 那些 人 眼前 的 广告 形式 。 基 于 又 精 又 准 这 种 精准 营销 的 理念 要 求 。 当 投放 
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广告 时 ,采用 语义 分 析 技 术 对 广告 主 的 关键 词 及 网 文 进行 匹配 ， 这 样 便 可 以 有 针对 性 地 将 广 
告 投放 到 相关 文章 周围 的 联盟 网 站 的 窗 告 广告 位 上 ， 即 “ 窗 ” 广 告 。 此 外 ，“ 罕 告 ” 还 具有 
另外 一 大 特色 ， 即 能 通过 地 址 精确 区 分 目标 区 域 ， 锁 定 哪些 区 域 是 广告 商 指定 的 目标 客户 所 
在 地 ， 仅 在 这 些 相应 的 区 域 中 投放 ， 最 后 成 功 地 精确 定位 目标 受众 。 由 此 可 见 ， 随 着 分 众 传 
播 的 思路 ，“ 窗 告 ”通过 与 信息 网 络 技术 相 结合 ， 最 终 实现 了 网 上 的 分 众 传播 。 

2. 精准 的 市 场 定位 

现代 营销 活动 中 关键 的 一 环 便 是 市 场 的 区 分 和 定位 ， 唯 有 准确 地 区 分 市 场 ， 方 能 确保 有 
效 的 产品 、 品 牌 以 及 市 场 定位 。 市 场 定位 要 求 从 各 种 角度 ， 如 客户 认 知 、 客 户 需求 以 及 竞争 
者 等 ,来 综合 考虑 企业 提供 的 产品 和 服务 所 应 当 满足 的 客户 群体 。 网 络 化 的 营销 模式 下 ， 对 
客户 或 者 消费 者 的 行为 进行 精确 的 衡量 和 分 析 ， 是 实现 精准 的 市 场 定位 的 要 求 。 此 外 ， 还 要 
建立 相应 的 数据 体系 ， 利 用 数据 分 析 对 客户 进行 优选 ， 同 时 为 了 确定 所 做 的 定位 是 否 准 确 有 
效 ， 可 采用 市 场 测试 验证 来 加 以 区 分 。 客 户 关 系 管理 ( Customer Relationship Management， 
CRM ) 系统 记录 了 客户 或 消费 者 的 基本 信息 及 其 消费 行为 ， 对 于 企业 而 言 这 至 关 重 要 ， 可 依 
据 该 系统 中 的 数据 ， 进 行 数据 挖掘 ， 制 定 营销 策略 。 

3. 精准 的 营销 服务 


针对 潜在 的 客户 或 者 消费 者 ， 企 业 通过 各 种 现代 化 信息 传播 工具 ， 并 提供 一 对 一 的 沟通 
服务 直接 与 客户 或 消费 者 进行 沟通 。 而 对 于 那些 曾经 有 过 交易 记录 的 客户 ， 因 为 已 经 拥有 了 
客户 或 消费 者 的 基本 信息 、 已 购买 的 产品 甚至 购物 过 程 中 所 浏览 产品 的 相应 记录 ， 利 用 这 些 
数据 资料 ， 可 以 在 一 定 程度 上 分 析 客 户 或 消费 者 的 消费 习惯 、 需 求 及 心理 。 此 外 ,还 可 以 追 
踪 消 费 者 在 各 种 社交 媒体 平台 上 发 表 的 意见 ， 从 而 进行 数据 的 收集 和 处 理 ， 通 过 分 析 推 测 客 
户 或 消费 者 现在 需要 的 是 什么 以 及 可 能 想 要 的 又 是 什么 。 另 外 ， 除 了 上 述 的 直接 沟通 方式 之 
外 ， 企 业 在 进行 一 对 一 的 沟通 服务 时 ， 还 可 以 利用 电子 邮件 的 方式 将 分 析 得 到 的 相关 信息 发 
送 给 客户 或 消费 者 ， 并 追踪 客户 或 者 消费 者 的 反应 。 

关于 大 数据 的 精准 营销 有 这 样 一 个 故事 。 海 尔 的 社会 化 客户 关系 管理 ( Social Customer 
Relationship Management，SCRM ) 会 员 大 数据 平台 于 2012 年 创立 ， 这 一 大 数据 平台 定位 于 把 
企业 内 部 的 全 流程 数据 动态 地 打通 ， 以 用 户 最 佳 体验 为 导向 ， 驱 动产 品 数据 、 销 售 数据 、 供 
应 链 数据 、 服务 数据 等 全 流程 数据 的 优化 增值 ， 同时 与 企业 外 部 的 全 网 络 数据 动态 连接 ， 最 
终 形成 全 流程 用 户 体验 生态 圈 。2013 年 4 月 ,海尔 把 探 针 伸 人 了 SCRM 会 员 大 数据 平台 ， 提 取 
出 数 以 万 计 的 海尔 帝 构 用 户 的 数据 ， 并 与 中 国 邮 政 的 名 址 数据 库 进行 匹配 ， 建 立 了 “look- 
alike” 模 型 。 这 个 模型 可 以 将 已 经 购买 帝 构 空 调 的 几 万 名 用 户 所 在 的 小 区 分 成 几 类 ， 并 打上 
标签 。 拥 有 帝 覃 用 户 的 上 海 虹桥 新 城 小 区 被 打上 了 一 系列 标签 ， 再 把 这 些 数据 标签 映射 回 中 
国 邮政 的 名 址 数据 库 ， 找 到 有 相似 特点 的 所 有 小 区 ， 进 而 锁定 了 北京 景泰 西里 小 区 。 与 此 同 
时 ， 海 尔 SCRM 会 员 平台 依据 其 自身 优势 同 几 家 旅游 、 健 康 类 杂志 合作 ， 为 北京 地 区 订户 提 
供 购 买 帝 楼 空调 的 优惠 。 该 小 区 的 陈 某 订阅 了 此 类 杂志 ， 显 然 其 比较 关注 自然 、 健 康 问题 ， 
而 帝 构 空 调 有 去 除 PM 2.5 系 列 的 产品 ( PM 2.5 指 大 气 中 直径 小 于 或 等 于 2.5 微 米 的 颗粒 物 ， 含 
有 大 量 的 有 毒 、 有 害 物质 ， 对 人 体 健康 和 大 气 环 境 质量 的 影响 较 大 ) ， 海 尔 由 此 预测 ， 陈 
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某 极 有 可 能 对 帝 构 空 调 去 除 PM 2.5 的 产品 感 兴趣 。 之 后 海尔 给 陈 某 投递 了 一 封 附 上 帝 构 空 调 
去 除 PM 2.5 功 能 介绍 的 直 邮 单 页 ， 促 使 陈 某 直接 去 了 实体 店 ， 经 过 一 番 体 验 后 他 便 购买 了 一 
套 。 通 过 海尔 的 精准 营销 ， 陈 某 显 然 享 受到 了 个 性 化 服务 。 

2014 年 4 月 ， 家 电 零 售 企业 国美 电器 与 制造 业 龙 头 海尔 联合 开展 了 一 次 会 员 营销 活动 。 
在 这 场 “ 年 度 会 员 超级 购 ” 活 动 中 ， 双 方 为 用 户 提供 了 涵盖 短信 、 微 信 、 电 话 等 全 触 点 的 个 
性 化 营销 方案 ， 并 通过 大 数据 研究 为 不 同 用 户 推送 不 同 的 产品 解决 方案 。 海 尔 大 胆 的 和 成 功 
的 尝试 无 疑 给 后 继 者 带 来 了 强烈 的 激励 和 启发 ， 各 行 各 业 也 纷纷 迎 着 这 番 强 劲 的 浪潮 大 胆 试 
水 。 这 不 是 结束 ， 只 是 开始 ,无 数 商家 渴望 以 及 期 待 着 一 场 大 数据 时 代 下 的 网 络 精准 营销 爆 
发 式 革命 的 到 来 ! 


四 9.3 大 数据 应 用 与 商业 机 会 


“假如 我 们 有 了 一 个 数据 预报 台 ， 就 像 为 企业 装 上 了 一 个 GPS 和 和 雷达， 企业 的 出 海 将 会 
更 有 把 握 。” 马 云 在 2012 年 网 商 大 会 上 的 演讲 中 形象 地 描述 了 数据 的 重要 性 。 随 着 科技 的 
发 展 ， 世 界 已 经 进入 大 数据 时 代 ， 而 这 数据 背后 潜藏 的 巨大 的 商业 机 会 更 是 让 无 数 人 跃 路 
和 欲 试 。 以 前 只 有 Google 、 微 软 这 样 的 公司 能 做 大 数据 深 挖 ， 现 在 已 经 有 越 来 越 多 的 创业 公司 
进入 ,不 同 的 公司 在 不 同 维度 的 数据 分 析 和 服务 方面 正 创造 出 新 的 商业 模式 。 谷 歌 搜索 、 
Facebook 的 帖子 和 微 博 消息 使 得 人 们 的 行为 和 情绪 的 细节 化 测量 成 为 可 能 。 挖 掘 用 户 的 行为 
习惯 和 喜好 ， 在 凌乱 纷繁 的 数据 背后 找到 更 符合 用 户 兴趣 和 习惯 的 产品 和 服务 ， 并 对 产品 和 
服务 进行 针对 性 地 调整 和 优化 ， 这 就 是 大 数据 的 价值 。 如 今 大 数据 在 越 来 越 多 的 领域 中 逐渐 
得 到 广泛 的 应 用 ， 通 过 对 大 数据 的 存储 、 挖 掘 与 分 析 ， 大 数据 在 营销 、 企 业 管理 、 数 据 标准 
化 与 情报 分 析 等 领域 大 有 作为 。 从 实力 雄厚 的 传统 IT 企业 以 及 互联 网 公司 到 基于 Hadoop 平 台 
的 初创 公司 纷纷 进入 大 数据 领域 气 金 。 


9.3.1 车 载 信息 服务 数据 在 汽车 保险 业 中 的 价值 

车 载 信息 服务 在 汽车 保险 行业 中 的 关注 度 非 常 高 ， 该 服务 是 通过 汽车 内 置 的 传感器 和 黑 
盒 来 收集 和 掌握 车 辆 的 相关 信息 。 可 以 配置 不 同 的 方案 ， 使 用 黑 盒 来 监测 所 有 的 汽车 数据 。 
还 可 以 监测 车 速 、 行 驶 里 程 ， 以 及 汽车 是 否 安装 了 紧急 制 动 系统 。 车 载 信息 服务 数据 可 以 帮 
助 保险 公司 更 好 地 理解 客户 的 风险 等 级 ， 并 设置 合理 的 保险 费 率 。 如 果 彻 底 忽 略 隐私 问题 ， 
车 载 信息 服务 装置 还 可 以 跟踪 到 汽车 去 过 的 所 有 地 点 、 何 时 到 达 、 到 达 的 速度 以 及 汽车 使 用 
了 哪些 功能 等 。 车 载 信息 服务 数据 最 初 是 作为 一 种 工具 出 现 的 ， 它 可 以 帮助 车 主 和 公司 获取 
更 好 的 、 更 加 有 效 的 车 辆 保险 。 能 够 期 待 的 是 ， 等 到 交通 工具 都 安装 了 车 载 信息 服务 装置 
后 ， 其 他 行业 也 可 以 开始 使 用 车 载 信息 服务 数据 ， 一 旦 车 载 信息 服务 开始 大 规模 使 用 ， 人 们 
以 前 所 设想 的 某 些 场景 将 会 得 以 实现 。 

可 以 大 胆 想 象 一 下 ， 未 来 全 国有 数 以 千 万 计 的 汽车 都 安装 了 车 载 信 息 服 务 装 置 ， 然 后 
第 三 方 研究 公司 可 以 通过 匿名 的 方式 为 客户 收集 十 分 详细 的 车 载 通信 数据 。 无 论 交 通 是 否 阻 
塞 ， 也 无 论 何 时 何 地 ， 这 种 数据 反馈 方式 都 会 提供 大 量 的 车 载 通信 信息 。 若 研究 人 员 能 够 掌 
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握 大 量 汽车 在 每 一 个 高 峰 时 段 、 每 一 天 、 每 个 城市 中 的 动向 ， 他 们 就 可 以 非常 清楚 地 判断 出 
车 流产 生 的 前 因 后 果 。 当 然 ， 像 诸如 “如 果 某 条 路 堵塞 ， 堵 塞 会 以 多 快 的 速度 蔓延 到 其 他 道 
路 ”的 问题 也 可 以 得 到 回答 。 车 载 通信 信息 的 实现 是 交通 道路 工程 师 们 梦 襟 以 求 的 理想 结 
局 ， 它 的 出 现 将 会 给 高 速 公路 的 管理 模式 带 来 翻天 覆 地 的 变化 。 在 我 们 能 够 见证 的 未 来 将 会 
是 一 番 让 人 欣喜 的 光明 前 景 。 


9.3.2 ”RFID 数 据 在 零售 制造 业 中 的 价值 


无 线 射 频 识别 ( Radio Frequency Identification，RFID ) ， 亦 称 射频 识别 ， 是 一 种 通信 技 
术 ， 可 通过 无 线 电 讯号 识别 特定 目标 并 读 写 相关 数据 ， 而 无 需 在 识别 系统 与 特定 目标 之 间 建 
立 机 械 或 光学 的 接触 。RFID 读 写 器 也 分 移动 式 的 和 固定 式 的 ， 目 前 RFID 技 术 的 应 用 很 广 ， 如 
图 书馆 、 门 禁 系 统 、 食 品 安全 溯源 等 。 

RFID 的 最 大 应 用 之 一 就 是 制造 业 的 托盘 跟踪 和 零售 业 的 物品 跟踪 。 制 造 商 发 往 零售 商 
的 每 一 个 托盘 上 都 有 标签 ， 这 样 就 可 以 很 方便 地 记录 哪些 货物 在 哪个 配送 中 心 或 者 商店 。 最 
终 ， 商 店 中 价格 很 低 的 商品 也 可 以 配备 RFID 芯 片 ， 或 者 使 用 某 一 种 类 似 的 新 技术 。 此 外 ， 
RFID 的 一 种 增值 应 用 是 识别 零售 商 货 架 上 是 否 有 相应 的 商品 。 如 果 读 卡 器 能 够 连续 不 断 地 确 
定货 架 上 每 种 商品 的 数量 ， 当 需要 重新 配 货 的 时 候 ， 商 家 就 能 得 到 准确 的 消息 。 此 外 ，RFID 
标签 还 可 以 跟踪 锁定 储藏 室 中 某 商品 的 存货 量 。 当 确定 货架 上 没有 该 商品 时 ， 商 家 们 只 需要 
完成 把 储藏 室 的 商品 搬 到 货架 上 这 个 简单 的 动作 就 可 以 了 。 当 然 ， 实现 这 个 目标 在 成 本 和 技 
术 上 还 存在 一 些 挑战 ， 但 是 对 未 来 我 们 应 该 持 有 乐观 的 心态 和 坚定 的 信念 。 另 外 ， 可 以 有 这 
样 一 个 有 趣 的 设想 ， 如 果 将 RFID 与 其 他 数据 结合 起 来 ， 其 发 挥 的 作用 将 是 无 穷 无 尽 的 。 如 果 
公司 可 以 将 配送 中 心 的 温度 数据 收集 起 来 ， 当 出 现 掉 电 或 者 其 他 极端 事件 时 ， 就 可 以 跟踪 到 
商品 的 损坏 程度 。 仓 库 数 据 还 可 以 和 装运 数据 联系 起 来 ， 当 商品 发 生 损 坏 时 ， 公 司 可 以 有 针 
对 性 地 召回 商品 ， 并 且 通 知 零 售 商 当 收 到 商品 时 再 次 对 商品 实行 开 箱 检查 。 与 其 他 的 大 数据 
源 类 似 ，RFID 数 据 本 身 并 不 能 发 挥 所 有 的 威力 ， 但 当 和 其 他 数据 有 效 地 结合 使 用 时 却 能 发 挥 
巨大 的 作用 。 

事实 上 ，RFID 技 术 的 应 用 十 分 广泛 。 除 了 已 经 讨论 过 的 制造 业 和 零售 业 ，RFID 标 签 的 
另外 一 种 应 用 是 贴 在 赌场 用 的 筹码 上 ， 每 一 个 筹码 ， 特 别 是 高 价值 的 筹码 都 有 自己 的 内 置 标 
签 ， 依 赖 这 样 的 标签 ， 赌 场 可 以 通过 上 面 的 串 行 编号 实现 惟一 地 识别 。RFID 技 术 的 应 用 表 
明 ， 一 些 底层 相同 的 技术 可 以 支持 不 同 的 大 数据 流 ， 这 些 大 数据 本 质 相同 ， 但 是 范围 和 应 用 
却 大 不 相同 。 


9.3.3 ”大 数据 在 医疗 行业 中 的 价值 


华盛顿 中 心 医院 与 微软 研究 中 心 合作 分 析 了 多 年 来 的 医疗 记录 ,包括 患 者 的 统计 资料 、 
检查 、 诊 断 、 治 疗 资料 等 。 这 项 研究 发 现 了 在 什么 情况 下 一 个 出 院 病 人 会 在 一 个 月 之 内 再 次 
和 人 入院。 除了 疑难 杂 症 外 ， 如 果 最 初 的 诊断 中 有 类 似 “ 压 抑 ” 这 种 暗示 心理 疾病 的 词 ， 病 人 再 
度 入 院 的 可 能 性 就 会 大 很 多 。 虽 然 两 者 之 间 没 有 绝对 的 因果 关系 ,但 如 果 病 人 出 院 之 后 的 干 
预 是 以 解决 病人 的 心理 问题 为 重点 ， 就 可 能 会 降低 再 次 人 院 的 概率 ， 这 样 就 可 以 提供 更 好 的 
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健康 服务 。 这 些 数据 属于 医院 ， 微 软 只 是 提供 了 分 析 工 具 ( Amalga 系 统 ) 从 这 些 数据 中 来 发 
现 有 价值 的 信息 。 

医疗 行业 中 产生 的 数据 量 主要 来 自 于 医学 影像 信息 系统 ( Picture Archiving and 
Communication System，PACS ) 的 各 种 医学 影像 、 病 理 分 析 等 业务 所 产生 的 非 结 构 化 数据 。 人 
体 不 同 部 位 、 不 同 专科 影像 的 数据 文件 大 小 不 一 ， 因 此 PACS 的 网 络 存储 和 传输 要 采取 不 同 策 
略 。 面 对 大 数据 的 测 涌 浪潮 ， 医 疗 行业 将 面临 前 所 未 有 的 挑战 和 机 遇 。 麦 肯 锡 曾 在 报告 中 指 
出 ， 除 去 体制 障碍 ， 大 数据 分 析 能 够 帮助 美国 的 医疗 服务 业 在 一 年 创造 三 千 亿 美元 的 附加 价 
值 。 表 9.2 以 临床 操作 和 研发 为 例 ， 展 示 了 医疗 行业 中 大 数据 的 潜在 机 会 。 

如 表 9.2 所 示 ， 医 疗 服务 提供 方 设置 的 操作 与 绩效 数据 集 能 够 指导 数据 分 析 ， 同 时 创建 可 
视 化 的 流程 图 和 仪表 盘 ， 促 使 信息 透明 化 ， 从 而 极 大 地 提高 医疗 的 效率 。 远 程 病人 监控 装置 
则 包含 了 血糖 仪 、 家 用 心脏 监测 设备 ， 甚 至 还 有 芯片 药片 一 一 被 患者 摄 和 人 后， 可 以 将 数据 实 
时 传送 到 电子 病历 数据 库 。 最 后 分 析 远 程 监控 系统 所 产生 的 数据 ， 从 中 能 够 提前 预测 病人 的 
身体 状况 ， 降 低 急诊 数量 ， 有 效 地 减少 病人 的 住院 时 间 ， 实 现 门诊 医生 预约 量 和 家 庭 护理 比 
例 提 高 的 目标 。 现 在 的 临床 决策 支持 系统 可 以 达到 分 析 医 生 的 输入 条 目的 目的 ， 通 过 比较 其 
与 医学 指引 的 不 同 之 处 ， 帮 助 医生 避免 一 些 潜在 的 错误 ， 诸 如 药物 过 敏 反应 等 。 此 外 ， 大 数 
据 分 析 技 术 将 使 临床 决策 支持 系统 更 智能 、 更 出 彩 ， 这 得 益 于 其 对 非 结 构 化 数据 分 析 能 力 的 
日 益 加 强 。 比 较 效 果 研 究 ( Comparative Effectiveness Research，CER ) 即 通过 全 面 分 析 大 型 数 
据 集 ， 如 病人 的 体征 数据 、 疗 效 和 费用 数据 等 ， 再 对 比 多 种 干预 措施 的 有 效 性 ， 最 终 找 出 对 
特定 病人 具有 针对 性 的 最 佳 治疗 途径 。 此 外 ， 医 药 企 业 在 新 药物 的 研发 阶段 ， 可 采用 数据 建 
模 与 分 析 的 方式 ， 判 断 怎样 的 投入 产 出 比 才 是 最 有 效率 的 ， 进 而 配备 最 佳 的 资源 组 合 ， 有 助 
于 加 速 医药 公司 向 市 场 推 进 新 药物 的 过 程 ， 生 产 出 针对 性 更 强 的 药物 一 一 有 更 高 潜在 市 场 回 
报 和 治疗 成 功率 的 药物 。 


表 9.2 临床 操作 和 研发 中 大 数据 的 应 用 


临床 操作 
医疗 数据 透明 度 预测 建 模 


远程 病人 监控 疾病 模式 的 分 析 
临床 决策 支持 系统 提高 临床 试验 设计 的 统计 工具 和 算法 


比较 效果 研究 临床 实验 数据 的 分 析 


9.3.4 社交 网 络 数据 在 电信 业 及 其 他 行业 中 的 价值 


追踪 一 千 个 成 员 或 用 户 并 非 难事 ， 但 是 ， 这 些 成 员 之 间 的 直接 关联 关系 将 会 上 升 百 万 级 
别 ， 而 再 考虑 到 “朋友 的 朋友 ” 则 关联 关系 会 升 至 十 亿 级 别 ， 这 就 解释 了 为 什么 社交 网 络 分 
析 会 是 一 个 大 数据 的 聚集 所 在 。 社 交 网 络 数据 非常 吸引 人 的 一 个 地 方 是 ， 它 能 够 识别 出 客户 
能 影响 的 整体 收入 ， 而 不 仅仅 是 他 或 者 她 个 人 提供 的 直接 收入 。 

现在 假设 电信 运营 商 有 一 个 被 评价 为 价值 相对 较 低 的 用 户 ， 该 用 户 只 有 基本 的 通话 要 
求 ， 并 不 会 为 运营 商 带 来 其 他 任何 的 增值 收入 。 按 照 运营 商 以 前 的 做 法 ， 只 会 根据 该 用 户 的 
个 人 账户 情况 来 对 其 进行 评价 。 在 以 前 ， 如 果 这 名 客户 通过 打 电 话 要 求 更 换 运营 商 ， 运 营 商 
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可 能 并 不 会 考虑 挽留 这 名 在 他 们 看 来 没有 价值 的 客户 。 而 在 社交 网 络 平台 迅猛 发 展 的 今 

这 名 价值 看 似 不 高 的 客户 ， 可 能 通过 数据 分 析 识 别 出 ， 与 该 客户 曾经 通话 的 对 象 恰好 是 有 着 
广泛 交际 圈 和 社会 地 位 举足轻重 的 人 物 。 有 研究 发 现 ， 一 旦 某 位 成 员 离 开通 话 的 圈子 ， 其 他 
与 之 有 联系 的 成 员 也 可 能 会 随 之 离开 ， 然 后 更 多 的 成 员 也 开始 离开 ， 就 像 一 种 连锁 反应 一 
样 ， 最 终 的 结果 便 是 所 有 的 成 员 雪 前 般 地 离开 ， 而 这 对 于 电信 运营 商 来 说 显然 是 坏事 一 桩 。 
因此 ， 不 难看 出 ， 对 社交 网 络 数据 的 深远 应 用 是 让 电信 运营 商 能 够 从 其 最 初 崇 尚 个 体 账户 利 
益 的 最 大 化 转向 了 客户 社交 网 络 利益 的 最 大 化 ， 这 对 于 整个 电信 业 来 说 ， 也 是 一 个 不 容错 失 
的 福音 。 当 然 , 这 里 提 到 的 这 种 方式 除了 适用 于 电信 行业 外 ， 也 同样 适用 于 很 多 其 他 的 行 
业 。 像 执法 部 门 也 能 够 从 社交 网 络 分 析 中 受益 ， 在 处 理 案件 的 过 程 中 ,识别 出 哪些 人 和 问题 
人 群 或 者 问题 个 人 存在 联系 ， 甚 至 有 着 间接 联系 。 一 旦 发 现 某 些 人 在 多 个 地 方 出 人， 那么 他 
或 她 就 会 被 定位 监控 ， 这 对 于 案件 的 侦破 将 会 有 极 大 的 帮助 。 此 外 ， 社 交 网 络 数据 分 析 能 够 
让 公司 在 识别 有 着 庞大 社交 网 络 的 客户 之 外 ， 还 能 够 锁定 能 够 影响 其 品牌 形象 的 地 方 。 公 司 
可 以 积极 主动 地 鼓励 客户 参与 到 相应 的 社交 网 站 ,采取 奖励 的 方式 激励 他 们 写 评论 和 表达 意 
见 ,一定 可 以 取得 不 俗 的 效果 。 


9.3.5 ”遥测 数据 在 视频 游戏 中 的 价值 

遥测 数据 是 通过 传感器 被 遥测 终端 接收 到 的 实时 数据 ， 它 是 视频 游戏 产业 的 一 个 术语 ， 
用 来 描述 捕捉 游戏 活动 的 状况 。 在 战争 游戏 中 ， 迁 测 数 据 收集 的 是 用 哪 种 枪械 开 的 火 ， 在 哪 
里 开 的 火 ， 向 哪个 方向 开 的 火 ， 以 及 枪械 对 各 种 东西 的 破坏 程度 。 使 用 遥测 数据 ， 游 戏 制造 
商 就 可 以 了 解 到 客户 的 私人 信息 ， 玩 家 实际 的 玩法 以 及 玩家 是 如 何 与 自己 创建 的 游戏 进行 交 
互 的 精彩 过 程 。 与 其 他 行业 相似 ， 客 户 的 满意 度 在 视频 游戏 中 同样 也 是 一 个 问题 。 视 频 游戏 
的 独特 之 处 在 于 要 设置 一 条 非常 精彩 的 行进 路 线 ， 游 戏 过 程 中 要 不 断 地 设置 关卡 给 玩家 提供 
挑战 的 机 会 ， 但 是 挑战 又 不 能 太 难 ， 过 于 富有 挑战 性 的 关卡 会 让 玩家 满腹 挫败 感 而 放弃 游 
戏 ， 但 是 如 果 游 戏 关卡 设置 得 过 于 简单 ， 也 会 让 玩家 倍 感 枯燥 而 放弃 。 所 以 游戏 分 析 显 得 格 
外 重要 ， 它 可 以 给 商家 充分 的 提示 ， 哪 些 游戏 关卡 可 以 让 玩家 轻松 通过 ， 而 哪些 关卡 对 于 
顶级 玩家 来 说 也 很 难过 关 ， 从 而 可 以 让 游戏 制造 商 根据 分 析 的 结果 适当 地 调整 关卡 的 难 易 程 
度 ， 达 到 最 终 的 平衡 ， 这 无 疑 会 给 游戏 制造 商 带 来 更 多 的 利益 和 价值 。 

此 外 ， 遥 测 数 据 还 可 以 依据 游戏 风格 将 玩家 分 类 。 这 些 重 要 的 信息 可 以 给 设计 者 带 来 更 
多 的 设计 灵感 ， 足 以 催生 更 多 更 加 优秀 的 游戏 ， 同 时 还 可 以 交叉 销售 现 有 的 产品 。 遥 测 数据 
能 够 了 解 到 玩家 的 认 知 层次 ， 基 于 此 可 以 改变 整个 游戏 行业 。 游 戏 产业 如 今 已 经 开始 使 用 遥 
测 数 据 ， 相 信和 在 不 久 的 将 来 这 个 领域 将 会 得 到 长 足 的 发 展 ， 而 遥测 数据 分 析 的 效果 将 会 给 游 
戏 制 作 以 及 推广 方式 带 来 重要 上 且 深远 的 影响 。 


9.4 大 数据 时 代 的 商业 变革 


在 互联 网 行业 迅猛 发 展 的 时 代 ， 互 联网 企业 乃至 传统 企业 的 管理 者 均 对 海量 的 数据 规模 
及 其 爆炸 性 的 增长 极为 熟悉 ， 然 而 ， 对 不 同 来 源 数据 交叉 形成 的 “大 数据 ”是 否 真 的 具有 庞 
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大 的 潜在 价值 ， 却 是 抱 着 将 信 将 疑 的 态度 。 实 际 上 ， 大 数据 所 拥有 的 附加 价值 将 远 超 企 业 管 
理 者 们 的 想象 ， 可 以 说 大 数据 将 在 商业 模式 和 决策 管理 上 掀起 一 场 变 革 。 

数据 化 意味 着 人 们 要 从 一 切 太阳 底下 的 事务 中 汲取 信息 ， 甚 至 原本 以 为 是 错误 的 信息 ， 
包括 很 多 以 前 认为 和 “信息 ”根本 搭 不 上 边 的 事情 。 例 如 很 少 有 人 认为 一 个 人 的 坐姿 能 表现 
出 什么 信息 ， 但 事实 是 ， 当 一 个 人 坐 着 的 时 候 ， 他 的 身 形 、 姿 势 和 重量 分 布 都 可 以 量化 和 数 
据 化 。 日 本 先进 工业 技术 研究 所 通过 在 汽车 座 椅 下 部 安装 了 360 个 压力 传感器 ,来 测量 人 对 
椅子 施加 压力 的 方式 ， 将 人 体 的 璧 部 特征 转化 为 数据 ， 产 生 独 属于 每 个 乘坐 者 的 精确 数据 资 
料 。 该 系统 可 根据 人 体 对 座 椅 的 压力 差异 来 识别 乘坐 者 身份 ， 准 确 率 高 达 98%。 这 些 数 据 都 
将 有 可 能 孕育 许多 前 景 光明 的 新 产业 。 人 们 可 以 利用 这 些 拥有 独 属 身份 的 信息 数据 研发 汽车 
防 次 系统， 而 通过 汇聚 这 些 数据 ， 未 来 科技 将 有 可 能 研制 出 行驶 安全 系统 ， 以 减少 安全 事故 
的 发 生 ， 不 得 不 说 ， 对 于 驾驶 员 而 言 这 将 会 是 绝对 的 福音 。 大 数据 的 兴起 ， 让 人 们 将 更 多 的 
目光 投向 之 前 忽略 的 角落 ， 同 时 也 将 更 多 的 不 可 能 变 为 可 能 ， 它 正 以 不 可 抵挡 之 势 悄悄 掀起 
一 场 惊心动魄 的 商业 变革 ， 冲 破 传统 思维 的 约束 和 禁 铜 ,引领 新 型 营销 的 崛起 和 腾飞 ， 它 带 
来 的 将 是 一 场 对 产业 链 有 着 强烈 冲击 的 伟大 变革 。 


9.4.1 大 数据 时 代 商 业 思维 的 变革 


“大 数据 ”的 关键 在 于 发 现 和 理解 信息 内 容 以 及 信息 与 信息 之 间 的 关系 ， 然 而 直到 现 
在 ， 人 们 对 此 还 是 难以 把 握 。IBM 资 深 的 大 数据 专家 杰 夫 ' 乔 纳 斯 提出 要 让 数据 “发 声 ”。 
按照 人 们 传统 的 思维 习惯 认为 ， 与 数据 交流 存在 困难 是 极为 自然 的 ， 但 却 并 未 想 过 实际 上 这 
只 是 受 其 技术 条 件 影响 的 一 种 人 为 限制 。 

在 过 去 ， 由 于 受 技术 和 资源 的 限制 ， 社 会 学 家 、 经 济 学 家 以 及 商人 们 ， 只 能 通过 采样 调 
研 和 统计 分 析 手 段 去 了 解 关 注 的 对 象 ， 即 在 小 数据 时 代 ， 人 们 采用 的 是 随机 采样 的 方式 ， 实 
现 以 最 少 的 数据 获取 最 多 的 信息 的 目的 。 然 而 ， 随 机 采样 毕 竞 是 在 受 限 的 时 代 应 运 而 生 的 ， 
现今 的 数据 处 理 技术 已 然 发 生 了 翻天 覆 地 的 改变 。 当 数据 收集 和 储存 的 成 本 几乎 可 以 忽略 不 
计时 ， 人 们 完全 可 以 通过 收集 全 面 而 完整 的 数据 来 加 以 分 析 。 数 据 量 的 大 幅 增加 会 造成 结果 
的 不 准确 ， 一 些 错误 的 数据 也 会 混 进 数 据 库 ， 然 而 ， 在 不 断 涌现 的 新 情况 里 ， 人 允许 不 精确 数 
据 的 出 现 已 经 成 为 一 个 新 的 亮点 ， 而 非 缺 点 。 因 为 放松 了 容错 的 标准 ， 人 们 掌握 的 数据 也 多 
了 ， 而 且 还 可 以 利用 这 些 数据 做 更 多 的 事情 。 此 外 ， 人 们 还 需要 与 各 种 各 样 的 混乱 作 斗争 。 
假设 这 样 一 个 场景 ， 要 测量 一 个 果园 的 温度 ， 但 是 整个 果园 只 有 一 个 温度 测量 仪 ， 那 就 得 保 
证 这 个 测量 仪 是 精确 的 而 且 能 够 一 直 工作 。 反 之 ， 如 果 每 100 棵 果树 就 有 一 个 测量 仪 ， 那 么 有 
些 测试 的 数据 可 能 会 出 现 错误 ， 也 可 能 会 更 加 混乱 ， 但 是 众多 的 数据 整合 在 一 起 就 可 以 提供 
一 个 更 加 准确 的 结果 。 这 就 是 大 数据 应 用 容错 性 的 突出 体现 一 一 全 部 数据 的 采用 会 将 有 瑕 间 
的 若干 数据 淡化 处 理 。 在 大 数据 时 代 ， 新 的 分 析 工 具 和 思路 为 人 们 提供 了 一 系列 新 的 视野 和 
有 用 的 预测 ， 让 人 们 将 关注 的 焦点 聚集 到 以 前 不 曾 注意 到 的 联系 上 。 一 个 重要 的 转变 就 是 ， 
人 们 学 会 了 去 探索 “是 什么 ”而 不 是 “为 什么 ”,， 不 再 局 限于 去 验证 已 有 的 推测 是 否 正确 ， 
不 再 是 去 仅仅 寻找 现象 背后 的 因果 关系 。 当 然 ， 在 传统 的 思维 里 ， 快 速 思维 模式 使 得 人 们 习 
惯用 因果 关系 来 看 待 周 围 的 一 切 。 例 如 父母 经 常会 这 样 教育 孩子 ， 天 冷 时 不 戴 帽子 和 手套 就 
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会 感冒 ， 然 而 ， 感 冒 和 穿戴 之 间 究 竟 存 在 直接 的 联系 吗 ? 答案 显然 是 否定 的 。 这 正 是 小 数据 
时 代 人 们 的 思维 模式 ， 但 是 如 今 ， 大 数据 之 间 的 相关 关系 将 会 用 来 证 明 人 们 在 第 一 时 间 内 直 
觉 的 因果 联系 是 错误 的 。 当 然 ， 因 果 关 系 仍然 还 是 有 用 的 ， 但 是 它 将 不 被 看 成 是 意义 来 源 的 
基础 。 在 大 数据 时 代 ， 虽 然 在 很 多 情况 下 ， 人 们 依然 指望 用 因果 关系 来 说 明 所 发 现 的 相互 关 
系 ， 但是， 因果 关系 也 只 是 一 种 特殊 的 相互 关系 。 相 反 ， 大 数据 推动 了 相关 关系 分 析 ， 相 关 
关系 分 析 通常 情况 下 能 取代 因果 关系 而 起 作用 ， 即 使 在 不 可 取代 的 情况 下 ， 也 能 指导 因果 关 
系 起 作用 。 维 克 多 将 大 数据 时 代 人 类 的 思维 革命 总 结 成 三 个 : 不 是 随机 样本 ， 而 是 所 有 数 
据 ; 不 是 精确 性 ， 而 是 混杂 性 ; 不 是 因果 关系 ， 而 是 相关 关系 。 


9.4.2 大 数据 时 代 管理 的 变革 

大 数据 所 具有 的 庞大 价值 将 影响 到 行业 的 各 个 枝 节 ， 毫 无 疑问 会 在 商业 模式 及 管理 决策 
上 掀起 一 场 深刻 的 变革 ， 而 企业 的 管理 层 要 首先 转变 思维 ， 对 企业 管理 模式 进行 变革 。 大 数据 
时 代 下 的 企业 要 想 在 竞争 中 屹立 不 倒 ， 既 要 掌握 更 多 更 好 的 数据 ， 更 要 领导 者 有 足够 的 管理 能 
力 ， 同 时 拥有 先进 的 管理 体系 。 那 么 大 数据 时 代 企业 管理 的 变革 又 将 体现 在 哪些 方面 呢 ? 

1. 创新 和 发 展 的 策略 

有 人 可 能 会 说 ， 大 数据 时 代 下 ,管理 层 人 员 的 视野 、 经 验 以 及 直觉 在 决策 方面 所 起 的 作 
用 会 越 来 越 小 。 然 而 事实 并 非 如 此 ， 这 个 时 代 所 需要 的 正 是 那些 能 够 发 现 商机 、 开 拓 市 场 的 
领导 者 ， 能 够 具有 创新 锐利 的 思维 且 能 让 员工 全 心 投入 到 该 新 想法 的 商业 领袖 ， 同 时 能 够 针 
对 企业 众多 管理 决策 做 出 变革 。 这 样 的 领导 者 将 是 未 来 十 年 能 够 推动 企业 成 功 的 重要 保证 。 

2. 广泛 的 实时 用 户 定制 


大 数据 提供 了 实时 个 性 化 定制 的 可 能 性 ， 同 时 在 用 户 定制 上 实现 了 质 的 飞越 。 在 大 数据 
时 代 ， 一 切 传统 商业 模式 都 会 被 个 性 化 所 颠覆 ， 未 来 商业 模式 发 展 的 新 驱动 力 和 终极 方向 将 会 
是 个 性 化 。 给 个 性 化 商业 应 用 提供 可 持续 发 展 的 沃土 与 足够 的 养分 是 大 数据 的 重要 作用 。 可 以 
想象 ,未 来 的 商业 可 以 实现 实时 用 户 定制 的 目标 ， 即 通过 研究 分 析 描述 消费 者 个 体 行为 和 爱好 
的 数据 ， 为 其 提供 专属 的 个 性 化 产品 和 服务 。 这 样 完美 切合 的 服务 也 是 消费 者 所 人 迫切 向 往 的 。 

3. 数据 跨 职 能 部 门 的 流动 

大 数据 时 代 ， 企 业 面 临 的 一 个 突出 挑战 ， 即 高 效 的 企业 需要 根据 不 同 的 部 门 把 信息 和 决 
策 分 配 下 去 。 但 是 创造 出 来 的 数据 信息 究竟 该 运用 在 哪个 部 门 ? 这 便 要 求 企业 的 组 织 架 构 应 
该 极其 灵活 ， 可 以 最 大 化 地 进行 企业 跨 职能 的 合作 。 除 此 之 外 ， 企 业 领 导 者 需要 为 各 部 门 的 
决策 人 员 提 供 懂得 相关 技术 的 数据 科学 家 ， 且 给 他 们 提供 给 合适 的 数据 。 

4. 充分 理解 大 数据 处 理 技术 


近年 来 ， 对 大 规模 、 多 形式 数据 处 理 的 技术 及 工具 有 了 非常 大 的 改变 。 一 般 而 言 ， 
这 些 技术 与 工具 都 不 算 十 分 昂贵 ， 事 实 上 ， 其 中 不 少 都 是 免费 开放 的 。 其 中 最 常用 的 就 是 
Hadoop， 一 个 分 布 式 系统 基础 架构 ， 该 架构 能 在 大 型 、 廉 价 的 硬件 设备 上 运行 应 用 程序 ， 同 
样 在 其 平台 上 也 提供 了 用 于 数据 分 析 的 工具 。 当 然 ， 这 些 新 的 技术 和 工具 将 给 很 大 一 部 分 企业 
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的 研究 部 门 带 来 新 的 挑战 ， 比 如 对 企业 内 部 和 外 部 数据 的 整合 能 力 提出 了 更 高 的 要 求 。 总 的 来 
说 ， 数 据 技术 在 大 数据 战略 中 并 非 占据 最 重要 的 地 位 ， 但 是 对 它 的 需求 却 是 必 不 可 少 的 。 

5. 对 数据 技术 人 员 的 管理 要 求 

大 数据 的 时 代 的 到 来 使 得 企业 对 数据 技术 人 员 的 需求 日 益 增强 ,数据 技术 人 员 的 价值 也 
日 益 显 著 ， 而 能 够 处 理 大 数据 的 “数据 科学 家 ”更 是 极为 重要 的 。 就 数据 科学 家 而 言 ， 必 不 
可 少 的 技术 之 一 便 是 统计 技术 ， 而 传统 的 统计 课程 内 容 有 局 限 性 ， 人 处理 大 数据 的 核心 技巧 并 
不 能 从 中 学 到 。 相 对 而 言 ， 清 理 数据 以 及 组 织 大 型 数据 的 能 力 是 大 数据 时 代 的 统计 技术 更 应 
关注 的 ， 因 为 海量 的 大 数据 里 面 除 了 有 传统 的 结构 数据 ， 更 多 的 是 非 结 构 化 数据 。 最 理想 的 
数据 科学 家 应 是 那些 既 能 了 解 “商业 语言 ”， 又 熟知 大 数据 技术 ， 可 以 从 数据 的 角度 帮助 领 
导 者 做 决策 的 专业 人 士 ， 而 这 样 的 人 才 是 各 企业 都 千金 难 求 的 。 

大 数据 的 商业 化 应 用 使 得 人 们 的 隐私 问题 和 相关 安全 问题 也 日 益 凸 显 出 来 ， 现 有 的 法 
律 、 法 规 已 经 无 法 保障 这 类 安全 的 需求 ， 管 理 者 急需 制定 符合 大 数据 模式 的 制度 。 在 笔者 看 
来 ， 大 数据 的 价值 很 美 , 但 是 不 能 让 这 些 数据 取代 人 们 的 自由 选择 和 决策 过 程 。 比 如 通过 大 
数据 挖掘 可 以 发 现 某 人 有 潜在 的 犯罪 倾向 ， 但 不 能 因此 就 认定 这 个 人 会 犯罪 ， 因 为 还 需要 考 
虑 到 道德 主体 的 自由 选择 和 环境 的 影响 ,或 许 选择 适度 的 干预 才 是 合理 的 。 同 时 ， 那 些 尝 到 
大 数据 甜头 的 人 ， 可 能 会 把 大 数据 运用 到 它 不 适用 的 领域 ， 甚 至 对 大 数据 分 析 结果 的 依赖 会 过 
分 膨胀 。 随 着 大 数据 预测 的 崛起 ， 有 些 人 对 于 大 数据 的 崇拜 会 越 来 越 明 显 ， 最 终了 哈 和 人 言 目的 洲 
涡 。 事 实 上 ， 人 们 应 该 时 刻 保持 理性 的 思维 ， 警 醒 自 我 ， 始 终 坚 信 大 数据 并 不 是 无 所 不 能 的 。 


9.4.3 大 数据 时 代 营 销 的 变革 

众所周知 ， 当 今世 界 经 济 急速 增长 ， 殊 不 知 计算 机 数据 处 理 能 力 的 增长 速度 却 是 其 增长 
速度 的 9 倍 ， 社 交 网 络 的 全 球 扩张 正 是 得 益 于 这 种 急速 的 数据 增长 。 毫 不 夸张 地 说 ， 营 销 规则 
的 命运 将 会 因为 这 种 增长 而 改写 。 在 这 个 信息 爆炸 的 时 代 ， 人 们 从 在 线 社交 生活 中 所 发 生 的 
行为 轨迹 及 其 创造 的 内 容 使 企业 可 以 轻易 地 洞察 客户 的 需求 ， 这 无 疑 是 新 型 且 高 效 营销 的 一 
个 前 提 。 亚 马 逊 就 基于 从 顾客 身上 获得 的 大 量 数据 来 分 析 他 /她 的 购买 习惯 和 偏好 ， 并 根据 大 
数据 的 分 析 来 构建 了 个 性 化 的 推荐 系统 及 畅销 书 排行 榜 ， 这 种 对 消费 者 的 洞察 力 是 大 数据 本 
身 带 来 的 技术 解决 方案 ， 而 不 再 是 源 于 人 工分 析 。 

企业 往往 可 通过 公开 的 来 源 、 网 上 数据 库 ， 通 过 购买 与 专门 渠道 来 获得 消费 者 数据 ， 还 
可 从 网 络 社区 和 智能 设施 中 收集 各 种 新 的 资料 。 如 今 能够 轻而易举 地 得 到 收集 、 分 析 数 据 的 
技术 ， 且 价格 也 在 下 降 ， 这 就 造就 了 一 个 光明 的 前 景 一 一 企业 可 以 更 进一步 地 深化 对 数据 的 
使 用 。 除 此 之 外 ,数据 应 用 已 被 很 多 企业 逐步 提升 到 一 个 新 的 层次 ， 对 推动 在 市 场 营销 领域 、 
实现 彻底 的 变革 有 着 至 关 重 要 的 作用 。 在 企业 的 营销 活动 当中 ,数据 的 采集 、 存 储 、 分 析 挖 
掘 与 应 用 对 营销 决策 有 着 至 关 重 要 的 作用 ， 所 谓 数据 库 营 销 就 是 对 客户 资料 进行 数据 采集 、 
存储 、 处 理 后 建立 的 一 个 客户 数据 资料 库 ， 据 此 准确 地 对 市 场 进行 细 分 与 定位 ， 从 而 实现 个 
性 化 、 创 新 性 的 营销 策略 。 因 而 ， 企 业 数据 库 营 销 的 思想 与 如 何在 大 数据 时 代 有 效 利 用 大 数 
据 极 其 吻合 ， 这 也 使 得 数据 库 营销 成 为 大 数据 时 代 引 领 企 业 市 场 营销 变革 的 主流 方式 之 一 。 

每 个 企业 赖 以 生存 和 发 展 的 基础 是 “深刻 洞察 和 理解 客户 需求 ”， 而 唯 有 对 大 量 的 客 
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户 进行 数据 挖掘 和 行为 分 析 才 可 能 达到 “理解 ”和 “洞察 ”的 目的 。 营 销 人 员 清 楚 地 知道 ， 
市 场 营销 实际 上 就 是 管理 决策 的 过 程 ， 首 先 采 用 市 场 调研 、 客 户 群 细 分 及 定位 等 方式 建立 营 
销 战略 组 合 ， 而 企业 的 战术 组 合 则 由 产品 、 价 格 、 促 销 以 及 分 销 相 结合 而 成 ， 同 时 运用 有 效 
的 措施 保证 营销 计划 的 实施 。 考 虑 到 要 提高 营销 的 效果 以 及 降低 营销 成 本 ， 企 业 应 当 具备 针 
对 性 的 精准 营销 ， 而 数据 库 营 销 以 一 种 适应 大 数据 潮流 逐渐 成 长 起 来 的 模式 渐渐 成 为 最 佳 的 
选择 。 数 据 库 营销 制定 出 “最 易 打 动 顾客 及 潜在 顾客 ; 与 顾客 建立 起 长 期 、 高 品质 的 良好 关 
系 ; 做 到 在 适当 时 机 以 适当 方式 将 必要 的 信息 传达 给 适当 的 顾客 、 有 效 地 抓 住 顾客 的 心思 ， 
让 营销 支持 更 有 效益 、 建 立 忠诚 度 、 增 加 利润 ”的 营销 模式 ， 这 样 一 来 ， 可 以 为 建立 精准 营 
销 和 良好 客户 关系 黄 定 坚实 的 基础 。 随 着 信息 技术 的 迅速 发 展 ， 数 据 库 营 销 成 为 适应 现代 信 
息 社 会 和 大 数据 时 代 的 独特 营销 方式 。 比 如 在 ZARA 店 内 ， 当 客人 向 店员 反映 “这 个 衣 领 图 
案 很 漂亮 ”“ 我 不 喜欢 口袋 的 拉链 ”这 些微 小 的 细节 时 ， 店 员 即 向 分 店 经 理 汇报 ， 经 理 通过 
ZARA 内 部 的 全 球 资讯 网 络 ， 每 天 至 少 两 次 传递 资讯 给 总 部 设计 人 员 ， 总 部 根据 汇集 的 数据 
做 出 即时 决策 后 立刻 传送 到 生产 线 ， 改 变 产品 样式 。ZARA 通 过 收集 海量 的 顾客 意见 而 做 出 
生产 销售 的 决策 已 大 大 降低 了 存货 率 ， 同 时 根据 这 些 数 据 分 析出 相似 的 “区 域 流 行 ”， 在 颜 
色 、 版 型 的 生产 中 ， 做 出 最 靠近 客户 需求 的 市 场 区 隔 。 


9.4.4 大 数据 时 代 产 业 链 的 变革 

产业 链 是 产业 经 济 学 中 的 一 个 概念 ?， 是 各 个 产业 部 门 之 间 基 于 一 定 的 技术 经 济 进行 关 
联 ， 它 包含 四 个 维度 的 概念 ， 分 别 是: 企业 链 、 价 值 链 、 空 间 链 和 供需 链 。 这 四 个 维度 在 相 
互 对 接 的 均衡 过 程 中 形成 了 产业 链 。 产 业 链 形成 的 内 模式 便 是 这 种 “对 接 机 制 ”， 作 为 一 种 
客观 规律 ， 它 犹如 一 只 “无 形 之 手 ” 调 控 着 产业 链 的 形成 。 产 业 链 的 本 质 是 用 于 描述 一 个 具 
有 某 种 内 在 联系 的 企业 群 结构 ， 它 是 一 个 相对 宏观 的 概念 ， 存在 两 维 属性 : 价值 属性 和 结构 
属性 。 产 业 链 中 大 量 存在 着 上 下 游 关系 和 相互 价值 的 交换 ， 上 游 环节 向 下 游 环节 输送 产品 
服务 ， 下 游 环节 向 上 游 环节 反馈 信息 。 下 面 以 服装 产业 链 为 例 来 说 明 ， 见 图 9.1 所 示 。 


纺织 技术 研发 面 辅料 生产 服装 设计 


(面料 ) (辅料 ) (产品 ) (品牌 ) 
服装 加 工 服装 商贸 
(时 装 ) (成 衣 ) (国内 市 场 ) 际 市 场 ) 
图 9.1 服装 产业 链 


权威 机 构 预测 ，2014 年 全 球 大 数据 技术 服务 支出 将 超过 140 亿 美元 ，2018 年 市 场 年 均 复合 
增长 率 将 达 26%， 支 出 增 至 460 亿 美元 。 在 第 十 二 届 全 国人 民 代表 大 会 第 二 次 会 议 上 ， 国 务 院 
总 理 李克强 做 政府 工作 报告 时 指出 ， 要 加 快 产业 结构 调整 ， 鼓 励 发 展 服务 业 ， 支 持 战 略 性 新 


加。 http:Wbaike.baidu.com/view/479661.htm?fr=aladdin 
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兴 产 业 的 发 展 ， 设 立新 兴 产 业 创业 创新 平台 ， 在 新 一 代 移 动 通信 、 大 数据 等 方面 赶 超 先进 ， 
引领 未 来 产业 发 展 。 由 此 可 以 预见 ， 数 据 服务 将 加 快走 向 普及 ， 并 且 需 要 一 条 成 熟 的 大 数据 
产业 链 给 予 支撑 。 麻 省 理工 学 院 有 利用 手机 定位 数据 和 交通 数据 建立 城市 规划 的 先例 ; Tesco 
PLC( 特 易 购 ) 也 开始 利用 大 数据 提高 其 运营 效率 ， 这 家 连锁 超市 在 其 数据 仓库 中 收集 了 700 万 
台 冰 箱 的 数据 ， 通 过 对 这 些 数 据 的 分 析 ， 它 可 以 进行 更 全 面 地 监控 并 达到 主动 维修 以 降低 整 
体能 耗 的 目的 。 大 数据 产业 链 正 是 从 囊括 生产 、 科 研 、 工 业 等 广泛 领域 所 产生 的 经 典 案例 中 
不 断 成 长 并 逐渐 走向 成 熟 的 ， 它 所 发 挥 的 重要 作用 就 是 能 够 从 各 种 类 型 的 数据 中 快速 获得 有 
价值 的 信息 。 在 当前 新 的 经 济 模式 下 ， 一 些 先行 企业 和 机 构 的 探索 实践 ， 使 更 多 的 人 看 到 
“数据 ”作为 一 种 资源 在 产业 化 过 程 中 如 何 发 挥 着 它 至 关 重要 的 作用 一 一 从 生成 、 采 集 、 传 
输 、 质 量化 、 挖 掘 ， 最 后 形成 “数据 服务 ”对 其 他 行业 进行 价值 输出 。 目 前 ， 大 数据 产业 链 
上 活跃 着 三 种 类 型 的 大 数据 公司 。 

@ 基于 数据 本 身 的 公司 ( 数据 拥有 者 ) : 拥有 大 量 数据 或 者 至 少 可 以 收集 到 大 量 数据 ， 却 

不 一 定 有 从 数据 中 提取 价值 或 者 用 数据 催生 创新 思想 的 技能 ， 例 如 社交 网 络 和 运营 商 。 

@ 基于 技术 的 公司 (技术 提供 者 ) : 技术 供应 商 或 者 数据 分 析 公司 等 。 

@ 基于 思维 的 公司 (服务 提供 者 ) : 挖 握 数 据 价 值 的 大 数据 应 用 公司 。 

大 数据 的 兴起 对 于 激活 产业 链 有 着 划时代 的 意义 。 阿 里 巴巴 的 金融 业务 就 是 基于 其 数据 
资产 进行 商业 创新 的 重要 成 果 。 阿 里 巴巴 在 金融 业 的 全 面 布局 已 经 对 传统 银行 、 保 险 、 小 贷 
等 多 个 行业 形成 了 冲击 ， 而 在 技术 、 模 式 和 思维 上 已 经 形成 较 大 的 冲击 ， 且 将 推动 金融 产业 
格局 的 重 构 ， 这 也 正 是 马云 宣称 要 “ 摇 一 摇 ” 传 统 金融 的 基础 。 大 数据 产业 链 及 其 技术 体系 
的 日 趋 成 熟 和 完善 是 有 目 共 暑 的 ， 相 信 大 数据 时 代 缔 造 的 美好 明天 即将 到 来 。 


和 9.5 大 数据 提高 企业 竞争 力 


什么 是 企业 竞争 力 ? 企业 竞争 力 是 在 竞争 性 市 场 条 件 下 ， 企 业 通过 培育 自身 资源 和 能 
力 ， 获 取 外 部 可 寻 资 源 ， 并 加 以 综合 利用 ， 在 为 顾客 创造 价值 的 基础 上 ,实现 自 身价 值 的 综 
合 性 能 力 。 同 时 也 是 在 竞争 性 的 市 场 中 ， 一 个 企业 所 具有 的 ， 能 够 比 其 他 企业 更 有 效 地 向 市 
场 提供 产品 和 服务 ， 并 获得 赢利 和 自身 发 展 的 综合 素质 。 企 业 的 竞争 力 分 为 三 个 层面 ， 第 一 
层面 是 产品 层 ， 包括 企 业 对 产品 生产 及 质量 的 控制 能 力 、 企 业 的 服务 、 成 本 控制 、 营 销 、 研 
发 能 力 ; 第 二 层面 是 制度 层 ， 包括 各 经 营 管理 要 素 组 成 的 结构 平台 、 企 业内 外 部 环境 、 资 源 
关系 、 企 业 运行 机 制 、 企 业 规 模 、 品 牌 、 企 业 产 权 制 度 ; 第 三 层面 是 核心 层 ， 包括 以 企业 理 
念 、 企 业 价值 观 为 核心 的 企业 文化 、 内 外 一 致 的 企业 形象 、 企 业 创新 能 力 、 差 异化 个 性 化 的 
企业 特色 、 稳 健 的 财务 、 拥 有 卓越 的 远见 和 长 远 的 全 球 化 发 展 目 标 。 总 而 言 之 , 第 一 层面 是 
表层 的 竞争 力 ， 第 二 层面 是 支持 平台 的 竞争 力 ， 第 三 层面 是 最 核心 的 竞争 力 。 企 业 竞争 力 的 
强 弱 无 疑 是 企业 经 营 者 们 关注 的 焦点 ,那么 在 数据 爆炸 的 时 代 ， 企 业 竞 争 力 究 竞 发 生 着 怎样 
颠覆 性 的 变化 ? 这 场 大 数据 革命 会 让 企业 经 营 者 们 面临 怎样 的 挑战 呢 ? 

在 以 往 漫长 的 商业 社会 进化 过 程 之 中 ， 人 才 对 企业 有 着 至 关 重 要 的 作用 ,离开 了 人 才 ， 
企业 的 智商 就 基本 为 零 , 也 正 是 由 于 这 样 ， 人 才 显 得 极其 重要 ， 甚 至 一 度 以 企业 的 核心 竞争 
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力 而 存在 。 一 方面 ， 这 些 人 才 的 大 脑 中 分 布 存储 了 企业 的 智商 ; 另 一 方面 ， 人 才 的 商业 智商 
能 够 借助 于 企业 ， 帮 助 提高 企业 智商 。 在 某 种 程度 上 ， 人 才 的 商业 智商 完全 决定 了 企业 智商 
的 高 低 ?。 而 由 于 企业 智商 是 分 布 存储 在 各 个 人 才 的 大 脑 之 中 的 ， 要 进行 信息 的 分 享 或 是 价 
值 挖掘 都 会 受到 非常 大 的 限制 ， 在 一 定 程度 上 往往 很 难 完全 发 挥 其 作用 ， 这 显然 不 利于 企业 
的 发 展 。 在 大 数据 时 代 ， 传 统 观 念 里 备 受 推崇 的 人 才 固然 重要 ， 却 并 不 是 企业 智商 最 为 重要 
的 载体 ， 如 今 企业 智商 真正 的 核心 载体 是 海量 的 数据 。 那 些 能 够 按 企业 需要 随时 获得 的 数 
据 ， 能 够 对 企业 业务 流程 的 任意 环节 进行 帮助 和 指导 ， 利 于 有 效 运营 和 优化 ， 并 且 能 够 协助 
企业 做 出 正确 合理 的 决策 ， 这 对 于 推动 企业 优化 管理 无 疑 是 雪中送炭 。 大 数据 时 代 海 量 繁杂 
的 各 种 数据 的 存在 使 得 企业 能 够 真正 掌握 企业 全 部 智商 。 大 数据 好 似 洪水 决 堤 般 倾泻 而 来 ， 
如 果 把 浩瀚 的 数据 比 作 无 际 的 海洋 ， 那 么 企业 必须 如 鱼 儿 熟悉 水 性 一 样 ， 自 如 地 熟悉 、 运 用 
好 大 数据 ， 才 能 真正 做 到 游 九 有 余 。 除 了 企业 智商 被 大 数据 重新 定义 以 外 ， 企 业 核 心 资产 也 
同样 被 大 数据 重 塑 。 在 过 去 很 长 的 一 段 时间 里 ， 土 地 、 流 动 资金 及 人 才 等 几 个 要 素 是 用 以 衡 
量 企业 最 重要 的 资产 ， 而 现在 ， 数 据 将 作为 企业 的 一 项 更 为 重要 的 资产 与 企业 的 发 展 潜力 有 
着 直接 且 密 不 可 分 的 关联 。 可 以 预见 ， 大 数据 的 洪流 给 企业 经 营 者 们 带 来 的 会 是 多 么 强烈 的 
冲击 。 当 重 塑 企 业 智商 以 及 核心 资产 完成 以 后 ， 数 据 资产 毫 无 悬念 将 地 成 为 现代 商业 社会 的 
核心 竞争 力 。 

基于 其 行业 的 特殊 性 ， 大 数据 给 商业 所 带 来 的 巨大 变化 早已 被 互联 网 行业 所 感受 到 。 不 
少 互联 网 企业 早 在 许多 企业 还 在 对 大 数据 引起 商业 世界 的 变革 无 所 适 从 时 ， 就 已 经 重新 定义 
了 其 核心 竞争 力 。 在 某 种 程度 上 ， 企 业 在 大 数据 时 代 即 将 迎接 的 美好 未 来 正体 现在 这 些 互联 
网 企业 目前 所 经 历 的 巨大 变化 。 亚 马 逊 长 期 以 来 都 采用 大 数据 分 析 ， 试 着 对 客户 进行 定位 ， 
获取 客户 反馈 。 亚 马 逊 的 CTO Werner Vogels 曾 经 说 过 “一 旦 进入 大 数据 的 世界 ， 企 业 的 手中 
将 握 有 无 限 可 能 ”。 然 而 ， 亚 马 逊 在 大 数据 时 代 做 出 的 大 胆 跨 越 并 非 仅 有 ， 如 今 电 商 之 争 可 
谓 诸侯 争霸 ， 火 药 味 甚 浓 。 大 数据 所 爆发 出 来 的 巨大 潜力 ， 正 如 利 剑 出 靖 、 铠 甲 上 身 ， 必 将 
在 未 来 为 电 商 企业 的 精准 营销 带 来 融合 性 的 影响 。 古 语 有 云 : 长 袖 善 舞 ， 多 钱 善 贾 ， 意 指 有 
所 依靠 ， 事 情 容易 成 功 。 可 以 预测 ， 将 数据 转化 为 竞争 力 ， 将 会 是 电 商 企业 在 大 数据 时 代 提 
高 其 核心 竞争 力 的 必 经 之 路 。 通 过 对 大 数据 的 深度 分 析 ， 企 业 能 够 把 握 市 场 未 来 的 发 展 方 
向 、 消 费 者 的 采购 行为 以 及 企业 营销 的 增长 ， 这 在 企业 竞争 中 成 为 不 容 忽略 的 巨大 优势 。 过 
去 ,占领 市 场 靠 的 是 企业 家 的 市 场 敏感 度 ， 今 后 则 更 多 依赖 于 对 数据 的 可 控 分 析 ， 特 别 是 来 
自 于 互联 网 平台 的 海量 数据 。 面 对 成 千 上 万 的 大 数据 ， 电 商 企业 要 借助 数据 的 力量 ， 特 别 是 
互联 网 平台 数据 去 支持 电 商 企业 的 发 展 ， 需 要 创造 性 地 运用 互联 网 思维 ， 把 经 过 分 析 、 挖 掘 
后 的 互联 网 数据 运用 在 电 商 营销 中 ， 所 谓 找 到 “ 买 奶粉 的 刚 需 客户 ”， 成功 地 把 商品 推送 到 
需求 客户 身边 。 可 以 预见 ， 在 未 来 大 数据 分 析 与 电 商 行业 的 结合 会 出 现 以 下 的 趋势 。 

第 一 ， 在 互联 网 平台 端 ,来 自用 户 的 消费 习惯 、 兴 趣 爱好 、 关 系 网 络 以 及 整个 互联 网 的 
趋势 和 潮流 都 将 成 为 电 商 行业 从 业者 关注 的 热点 ， 而 这 一 切 的 获取 和 分 析 都 离 不 开 对 大 数据 
分 析 。 
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第 二 ， 基 于 移动 互联 网 与 移动 社交 平台 的 海量 数据 分 析 ， 将 电 商 营销 带 入 了 个 性 化 时 
代 。 应 用 互联 网 平台 的 大 数据 分 析 ， 可 以 提示 电 商 企业 正确 的 营销 时 间 与 方向 ， 潜 在 的 用 户 
和 交易 机 会 等 ， 这 正好 切中 了 企业 在 移动 互联 网 端的 需求 。 

第 三 ,根据 对 来 自 互联 网 等 各 类 不 同 平台 的 数据 进一步 的 挖掘 和 分 析 ， 找 到 这 些 数据 相对 
应 的 人 群 ， 再 将 这 些 群 体 进 行 个 性 化 的 对 比 ， 并 以 此 展开 电 商 企业 个 性 化 的 产品 营销 服务 。 

除了 电 商 企业 ， 莲 勃发 展 的 大 数据 也 向 各 行 各 业 伸 出 了 橄榄 枝 。 不 论 是 传统 的 石油 行 
业 还 是 传统 银行 业 抑或 是 零售 业 ， 都 意识 到 数据 的 重要 性 。 据 媒体 报道 ， 埃 克 森 美孚 曾 在 此 
前 一 次 全 球 性 招标 中 ， 一 次 性 投入 10 亿 美元 来 采购 信息 化 服务 。 传 统 的 商业 银行 也 努力 和 互 
联网 “合作 共 赢 ”， 并 进行 模式 创新 ， 如 推出 POS 网 络 商户 贷款 业务 。 全 球 最 大 的 零售 商 沃 
尔 玛 也 在 其 社交 基因 组 计划 中 整合 了 用 户 在 社交 网 络 中 的 关系 数据 ， 用 以 更 精准 地 推测 消费 
者 的 偏好 ， 以 此 来 实现 更 加 精准 的 营销 。 除 此 之 外 ， 大 数据 也 向 小 数据 时 代 的 赢家 以 及 那些 
线 下 的 大 公司 ， 包 括 宝洁 、 联 邦 快递 、 汰 巢 以 及 波音 公司 等 ， 提 出 了 挑战 。 这 些 赢 家 也 必须 
意识 到 大 数据 如 今 的 威力 ， 然 后 有 策略 、 针 对 性 地 收集 和 使 用 数据 。 诸 如 科技 创业 公司 和 新 
兴 行 业 中 的 老牌 企业 也 并 不 例外 ， 苹 果 公 司 进军 移动 手机 行业 就 是 一 个 非常 典型 的 例子 。 在 
iPhone 推 出 之 前 ， 苹 果 公 司 在 与 移动 运营 商 签订 的 合约 中 明文 规定 ,运营 商 们 要 提供 给 它 大 
部 分 的 有 用 数据 ， 正 是 因为 拥有 多 个 运营 商 提 供 的 大 量 数据 ， 苹 果 公 司 所 掌握 的 关于 用 户 体 
验 的 数据 比 任何 一 个 运营 商都 要 多 。 有 人 可 能 会 有 这 样 的 疑问 ， 是 否 只 有 这 些 大 型 集团 公司 
才 有 能 力 进行 数据 挖掘 呢 ? 中 小 型 企业 由 于 资金 相对 受 限 ， 是 否 就 意味 着 在 这 场 大 数据 革命 
中 真 的 没有 一 席 之 地 ， 甚 至 完全 失去 竞争 力 呢 ? 在 中 小 型 企业 如 雨后春笋 般 发 芽 繁 荣 的 今 
天 ， 面 对 资金 的 限制 和 市 场 的 竞争 ， 小 企业 该 如 何 更 好 地 去 迎接 大 数据 时 代 的 挑战 呢 ? 

事实 上 ， 大 数据 给 小 公司 带 来 的 不 是 危机 ， 而 是 机 遇 。 因 为 聪明 而 灵活 的 小 公司 能 享 
受到 非 固 有 资产 规模 带 来 的 好 处 ， 这 也 就 意味 着 ， 它 们 并 没有 很 多 的 固有 资产 却 具 有 强烈 的 
存在 感 ， 并 且 它 们 也 可 以 通过 降低 成 本 的 方式 传播 创新 成 果 ， 这样 也 能 取得 不 错 的 效果 。 还 
有 一 个 关键 所 在 ， 因 为 最 好 的 大 数据 服务 都 是 以 创新 思维 为 基础 的 ， 所 以 它们 不 一 定 需 要 投 
和 人 大 量 的 原始 资本 ， 而 是 应 该 把 握 好 创新 的 原则 。 数 据 可 以 授权 但 是 不 能 被 占有 ， 数 据 分 析 
能 在 云 处 理 平台 上 快速 而 且 低 成 本 地 进行 ， 而 授权 费用 则 应 该 从 数据 带 来 的 利益 中 抽取 小 部 
分 。 换 言 之 ， 传 统 的 资源 比如 土地 ， 几 乎 已 经 被 瓜分 玖 尽 。 而 数据 资产 却 还 处 在 跑马 圈 地 的 
阶段 ， 任 何 一 个 小 企业 都 可 以 拥有 这 样 的 机 会 一 一 通过 提供 新 颖 的 服务 来 获取 不 同 的 数据 资 
产 ， 而 大 数据 恰恰 又 可 以 给 小 企业 提供 后 来 居 上 的 机 会 。 例 如 ， 一 家 专门 提供 包车 和 租车 服 
务 的 商旅 运输 公司 ， 正 常情 况 下 是 竞争 不 过 传统 出 租车 公司 的 ， 但 是 如 果 可 以 获取 在 线 叫 车 
服务 乘客 以 及 司机 的 双向 数据 ， 然 后 再 根据 这 些 数据 针对 不 同 客户 的 需求 提供 个 性 化 的 服 
务 ， 便 可 就 此 实现 超越 的 目的 。 因 此 ， 对 于 小 企业 而 言 ， 需 要 领悟 到 大 数据 的 精髓 和 深层 价 
值 才能 提高 竞争 力 ， 进 而 赢得 持续 的 发 展 和 进步 。 

大 大 小 小 的 公司 都 能 从 大 数据 中 获 利 ， 这 个 情况 很 有 可 能 并 不 只 适用 于 使 用 数据 的 公 
司 ， 同 样 也 适用 于 掌握 数据 的 公司 。 大 数据 拥有 者 会 绞 尽 脑汁 地 想 办 法 增加 它们 的 数据 储存 
量 ， 因 为 这 样 能 够 达到 以 极 小 的 成 本 换取 更 大 利润 的 目的 。 首 先 ， 它 们 已 经 具备 了 存储 和 处 
理 数据 的 基础 ; 再 者 ， 数 据 库 的 融合 能 够 带 来 特有 的 价值 ; 最后， 数据 使 用 者 如 果 只 需要 从 
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某 个 人 手中 购 得 数据 ， 那 将 更 加 省 时 省 力 。 不 过 实际 情况 要 远 远 复杂 得 多 ， 因 为 可 能 还 会 
一 群 处 在 另 一 方 的 数据 拥有 者 的 诞生 ， 这 对 于 已 经 存在 的 拥有 者 来 说 必然 构成 威胁 。 随 着 数据 
价值 的 显现 ， 很 多 人 会 想到 以 数据 拥有 者 的 身份 大 展 身手 ， 他 们 收集 的 数据 往往 是 和 自身 相关 
的 ， 比 如 他 们 的 购物 习惯 、 观 影 习惯 、 外 出 吃饭 的 习惯 ， 也 许 还 会 有 医疗 数据 等 。 消 费 者 可 以 
非常 自主 地 做 出 决定 ， 如 可 以 选择 将 这 些 数据 中 的 部 分 授权 给 哪些 公司 。 当 然 ， 除 此 之 外 ,很 
多 人 也 是 愿意 免费 提供 这 些 数据 来 换取 更 好 的 服务 ， 例 如 那些 想得到 图 书 网 站 更 准确 的 书籍 推 
Pe ee ted opi 和 复杂 ， 所 以 可 
能 会 催生 一 些 中 间 商 ， 他 们 会 从 消费 者 手中 购 得 信息 ， 然 后 卖 给 公司 。 如 果 这 个 过 程 的 成 本 
足够 低 ， 并 且 消 费 者 对 中 间 商 也 有 足够 的 信任 ， py ead 

毫 不 夸张 地 说 ， 大 数据 给 人 类 带 来 的 巨大 商业 价值 丝毫 不 逊色 于 二 十 世纪 计算 机 革命 造 
成 的 巨大 变革 。 那 么 在 这 场 大 数据 洪流 中 企业 能 否 抓 住 这 个 千载难逢 的 机 遇 ， 为 提升 企业 的 
核心 竞争 力 做 出 大 胆 的 尝试 和 努力 呢 ? 为 此 我 们 给 出 以 下 几 点 建议 。 

首先 ， 提 供 数据 交易 、 迁 移 、 存 储 、 处 理 以 及 分 析 的 实时 平台 ， 满 足 行业 用 户 在 大 数据 
的 突出 挑战 下 快速 、 实 时 地 处 理 和 服务 需求 。 

其 次 ， 将 大 量 结构 化 与 非 结构 化 的 数据 进行 整合 处 理 ， 并 且 融 合 云 计算 应 用 程序 ， 将 其 
集成 到 电脑 及 各 种 工程 系统 中 ， 从 而 使 用 户 的 工作 简化 。 

再 次 ， 打 造 大 数据 优化 解决 方案 ， 在 确保 数据 真实 性 的 前 提 下 ， 有 效 处 理 大 规模 、 多 样 
化 、 高 速 流动 的 数据 ， 帮 助 用 户 获取 对 其 业务 的 理解 和 洞察 力 ， 用 以 制定 相应 的 策略 以 及 实 
现 业 务 的 快速 突破 和 增长 。 

最 后 ,创建 数据 的 管道 化 管理 流程 ， 以 数据 集聚 为 依托 ， 以 各 种 数据 应 用 为 驱动 ， 以 丰 
富 的 界面 形式 对 用 户 展现 数据 分 析 结 果 ， 最 终 完 成 数据 的 汇总 、 应 用 分 析 及 结果 呈现 的 完整 
流程 。 

如 今 的 大 数据 时 代 ， 在 不 经 意 间 给 商业 的 生态 环境 带 来 了 翻天 覆 地 的 变化 9。 网 民 与 消 
费 者 的 界限 逐渐 变 得 模糊 ， 网 络 传输 的 随时 在 线 ， 智 能 终端 的 无 处 不 在 以 及 社交 网 络 的 频繁 
互动 都 让 往日 仅仅 浏览 网 页 的 网 民 逐 渐变 得 “轮廓 分 明 ”。 大 数据 使 得 企业 第 一 次 有 机 会 对 
消费 者 行为 进行 大 规模 的 、 精 准 化 的 研究 。 而 其 中 对 变革 具有 向 往 意识 的 企业 ， 更 应 主动 地 
拥抱 这 种 革新 、 变 化 ， 最 终 实现 从 战略 到 战术 层面 的 自我 的 旷 变 与 进化 。 


上 19.6 练习 


1. 大 数据 时 代 营 销 模式 的 优势 体现 在 哪些 方面 ? 

2. 什么 是 精准 营销 ? 精准 营销 与 传统 营销 的 区 别 是 什么 ”大 数据 时 代 下 的 网 络 化 精准 营 
销 的 具体 表现 有 哪些 ? 

3. 举例 说 明 大 数据 时 代 下 涌现 的 商业 机 会 。 

4. 简要 阐述 一 下 大 数据 时 代 的 商业 变革 。 
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| 第 10 章 


大 数据 应 用 案例 


随 着 大 数据 技术 的 日 益 成 熟 ， 大 数据 的 应 用 也 越 来 越 广泛 ， 人 们 几乎 每 天 都 能 够 看 到 大 
数据 的 一 些 新 奇 的 应 用 ， 它 帮助 人 们 获得 真正 有 用 的 价值 。 很 多 行业 都 会 受到 大 数据 分 析 能 
力 的 影响 ， 其 中 大 数据 在 金融 行业 的 应 用 尤为 突出 


上 10.1 大 数据 在 金融 行业 中 的 应 用 案例 


10.1.1 摩根 大 通信 贷 市 场 分 析 

固定 收益 研究 与 分 析 人 员 长 期 以 来 都 在 为 客户 寻找 更 直观 与 精准 的 数据 分 析 与 呈现 方 
式 。 使 用 传统 的 分 析 技 术 例如 在 线 图 表 、 表 格 、 共 享 文档 等 方式 来 呈现 与 分 析 庞大 的 信贷 市 
场 数据 是 极其 复杂 且 耗 时 的 工作 。 从 这 些 海量 的 数据 中 寻找 并 完成 特定 报表 是 非常 困难 的 ， 
并 且 查 找 迎 辑 时 往往 出 现 大 量 不 相关 的 数据 。 时 至 今日 ， 互 联网 毫 无 疑问 是 查找 、 传 输 市 场 
数据 的 必要 途径 ， 但 要 更 快速 有 效 地 为 客户 提供 价值 ， 金 融 机 构 需要 更 直观 的 数据 呈现 与 济 
览 方式 。 

摩根 大 通 银行 (JP. Morgan ) 是 摩根 大 通 集团 的 子 公 司 。 作 为 世界 顶尖 金融 机 构 ， 摩 根 
大 通 为 一 百 多 个 国家 的 客户 提供 资产 管理 、 投 资 银行 、 商 业 银 行 、 私 人 银行 以 及 证 券 管理 等 
服务 。 

像 摩 根 大 通 银行 这 样 的 大 型 机 构 需 要 不 断 创 新 的 数据 分 析 手 段 来 应 对 爆炸 式 增长 的 数 
据 ， 并 且 要 给 与 客户 最 简洁 直观 的 数据 呈现 方式 ， 二 者 不 可 或 缺 ， 才 能 在 竞争 激烈 的 金融 市 
场 上 树立 自己 的 品牌 。 

摩根 大 通 银行 利用 Datawatch Panopticon 创 造 了 非常 直观 易 懂 ， 且 能 够 实时 更 新 、 紧 跟 市 
场 动态 的 “信贷 市 场 动态 图 ”， 如 图 10.1 所 示 。 这 个 工具 使 得 用 户 能 在 定制 化 的 面板 中 ， 以 
颜色 、 大 小 、 近 似 值 等 方式 呈现 和 分 析 数 据 ， 帮 助 用 户 轻松 地 分 析 趋 势 ， 发 现 规律 ， 作 出 
决策 。 

从 图 10.1 中 可 以 看 到 “信贷 市 场 动态 图 ”以 一 组 特定 颜色 ， 大 大 小 小 的 方块 分 别 代表 公 
司 债券 市 场 的 诸多 基本 信息 。 图 表 按 不 同行 业 划分 区 块 ， 每 个 区 块 内 的 方块 代表 本 行业 所 发 
的 债券 。 方 块 大 小 代表 债券 的 发 行 量 ， 颜 色 代表 此 债券 的 表现 。 通 过 此 图 可 帮助 投资 者 一 目 
了 然 地 看 到 哪些 行业 ， 哪 些 债 券 受到 追捧 ， 以 及 这 些 债 券 的 发 行 量 是 否 满足 自己 的 投资 需 
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要 。 点 击 各 个 方块 ， 则 可 看 到 相应 债券 的 详细 信息 ， 如 债券 评级 ， 哪 些 分 析 员 负 责 研 究 此 债 
券 ， 以 及 他 们 的 直线 电话 ， 并 且 附 有 详细 研究 报告 的 链接 等 。 


图 10.1 信贷 市 场 动态 图 

在 采用 Datawatch Panopticon 之 前 ， 摩 根 大 通 银行 的 客户 需要 从 文本 报告 的 无 数 报表 中 来 
寻找 公司 的 债券 信息 ， 但 由 于 庞大 的 市 场 规模 以 及 海量 的 债券 数据 ， 客 户 很 难 从 大 量 的 信息 
中 提取 最 需要 的 部 分 ， 因 而 错过 了 不 少 难得 的 投资 时 机 

摩根 大 通 银行 在 固定 收益 研究 方面 是 市 场 领 导 者 。 使 用 了 Datawatch Panopticon 方 案 后 ， 
摩根 大 通 银行 的 市 场 竞争 力 继续 增强 ， 并 不 断 地 改进 现 有 “信贷 市 场 动态 图 ”， 以 帮助 客户 
更 快 、 更 好 地 实现 投资 需要 。 

通过 使 用 Datawatch Panopticon 解 决 方案 ， 摩根 大 通 银行 用 最 新 、 最 直观 的 表现 方式 呈现 
出 现 有 的 大 量 的 数据 信息 。 一 目 了 然 的 鸟 辐 图 可 帮助 客户 快速 了 解 最 新 趋势 ， 单 击 单个 方块 
可 以 继续 深入 研究 单个 债券 的 详细 研究 成 果 。 此 方案 的 使 用 帮助 摩根 大 通 银 行 获得 了 “最 佳 
固定 收益 在 线 研究 奖 ”。 

摩根 大 通 银行 欧洲 投资 组 合 与 指数 总 监 Lee Mecginty 表 示 : “Datawatch Panopticon 帮 助 我 们 
极 大 地 增强 了 对 信贷 市 场 数据 的 分 析 能 力 ， 是 我 们 获得 这 个 全 欧洲 第 一 的 奖项 不 可 或 缺 的 一 


10.1.2 ”奥马 哈 外 汇 风 险 敞 口 和 实时 数据 分 析 

奥马 哈 外 汇 要 求实 现实 时 对 外 汇 数据 流 中 CEP 引 擎 中 的 数据 进行 可 视 化 分 析 ， 并 建立 树 
形 图 和 可 视 化 热 图 ,来 全 面 取代 传统 的 报表 工具 。 奥 马 哈 外 汇 采 用 的 解决 方案 是 用 Datawatch 
连接 到 多 个 CEP 引 擎 ， 在 “任务 控制 ”环境 下 将 28 个 分 析 仪表 盘 显 示 在 非常 大 的 视频 墙 上 。 
实现 以 客户 为 指导 的 部 署 ， 同 时 最 小 化 Datawatch 咨 询 支出 。Datawatch 团 队 在 30 天 内 完成 了 部 
署 ， 达 到 了 所 有 交易 都 可 以 使 用 交互 式 仪表 盘 来 分 析 实时 数据 的 目的 ， 在 高 度 变 化 的 市 场 条 
件 下 保持 风险 敞 口 ， 如 图 10.2 所 示 。 
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图 10.2 ”奥马 哈 外 汇 


通过 融合 Datawatch 的 热点 地 图 ， 人 们 实时 分 析 风 险 的 能 力 在 今天 这 样 高 度 不 稳定 的 市 场 
中 将 会 大 大 提高 。 


10.1.3 ”瑞士 银行 集合 风险 分 析 


市 场 波动 性 的 增加 ， 意 味 着 金融 服务 公司 必须 洞察 全 天 候 的 风险 ， 进 行 充 分 的 风险 分 
析 。 运 用 Datawatch 数 据 可 视 化 软件 ， 基 金管 理 人 可 以 监控 风险 限额 的 使 用 情况 ， 并 借助 外 部 
风险 引擎 ， 分 析 风 险 数据 。 仪 表 板 可 以 帮助 用 户 找 出 问题 、 发 现 机 会 ， 它 比 任何 传统 的 报告 
系统 都 更 快 ， 更 高 效 ， 如 图 10.3 所 示 。 


图 10.3” 某 瑞 士 重 要 银行 仪表 分 析 盘 


Datawatch 作 为 一 家 金融 服务 公司 ， 除 了 努力 满足 并 超越 客户 、 员 工 和 股东 的 需求 ， 还 需 
要 合适 的 工具 ， 以 便 能 够 迅速 、 容 易 、 经 济 地 做 出 更 好 的 业务 决策 。 下 面 简单 介绍 Datawatch 
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与 其 他 工具 结合 使 用 进行 风险 分 析 的 一 个 案例 。 

该 银行 需要 在 任意 时 间 点 都 能 为 交易 员 提供 能 显示 VaR 的 仪表 分 析 盘 ( 包括 实时 的 和 历 
史 的 数据 ) ,希望 对 所 有 的 办 公 室 、 个 体 和 产品 组 合 进行 分 析 集 合 的 风险 并 且 允 许 各 个 职位 
的 工作 人 员 可 以 深度 研究 其 中 的 细节 ， 并 且 能 在 一 个 仪表 分 析 盘 内 部 直接 链接 到 交易 系统 与 
现 有 的 IT 基 础 设备 进行 交互 。 了 解 了 该 银行 的 需求 并 进行 分 析 后 ，Datawatch 团 队 把 Datawatch 
可 视 化 嵌入 到 现存 的 优先 交易 系统 中 (Java 环境 ) ， 在 Datawatch 顾 问 团队 支持 下 ， 由 客户 管 
理 的 第 三 方 开发 完成 。 此 次 实施 该 解决 方案 共 历 时 120 天 ， 完 成 后 提高 了 该 银行 办 公 的 合作 效 
率 ， 且 交易 员 和 经 理 之 间 更 容易 实现 结果 共享 ; 风险 经 理 能 够 按 需 查看 VaR 数 据 ， 计 算 风 险 
的 大 小 ,实现 更 高 效 的 操作 ， 从 而 进行 风险 分 析 ， 监 控 风险 限额 的 使 用 情况 ， 以 及 分 析 由 外 
部 风险 所 带 来 的 风险 大 小 。 另 一 方面 ， 也 可 以 预防 风险 ，Datawatch 的 实时 技术 帮助 该 银行 直 
观 地 监测 数据 流 、 数 据 队列 和 交易 效率 。 

该 银行 的 首席 风险 控制 官 对 产品 的 评价 是 “我 们 已 经 在 我 们 的 交易 系统 里 做 了 一 个 可 持续 
的 投资 并 且 这 个 系统 现在 很 好 地 为 我 们 工作 。 我 们 决定 把 Datawatch 工具 用 SDK 直 接 嵌 入 我 们 的 系 
统 。 现 在 我 们 拥有 一 个 完全 无 缝 的 用 户 界面 ， 而 可 视 化 成 为 我 们 理解 我 们 数据 的 主要 能 力 ”。 


10.1.4 汇丰 银行 多 维度 的 历史 数据 分 析 和 异常 值 快 速 分 析 


Datawatch 具 有 强大 的 功能 ， 除 了 使 风险 分 析 更 有 用 、 更 高 效 外 ， 其 功能 还 包括 从 CEP 引 
擎 订阅 完整 的 参数 化 数据 流 ; 使 用 时 间 窗 口 和 时 间 段 分 析 ; 找 出 时 间 段 内 增 量变 化 ; 能 够 使 
用 快速 的 内 存 OLAP 数 据 模型 监测 和 分 析 多 维 数据 ; 能 够 可 视 化 趋势 、 聚 类 、 相 关 性 和 异常 值 
等 。 例 如 ， 图 10.4 显 示 的 是 某 主 要 国际 银行 的 仪表 分 析 盘 。 汇 丰 银 行 就 是 利用 这 些 功 能 来 完 
成 多 维度 分 析 以 及 异常 值 分 析 的 。 


图 10.4 ， 某 主要 国际 银行 的 仪表 分 析 盘 
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该 银行 需要 分 析 标记 的 历史 数据 ， 在 可 交互 的 仪表 分 析 盘 中 ,利用 CEP 数 据 ， 利 用 网 络 
传递 至 用 户 ， 并 嵌入 到 用 户 的 桌面 应 用 中 。 实 现 了 多 维 数据 分 析 ， 达 到 快速 分 析 异 常 值 和 比 
较 不 同时 间 段 数据 的 能 力 。 该 银行 采用 的 解决 方案 是 把 Datawatch 链 接 到 Kx Kdb+ tick 数 据 库 和 
Sybase CEP 引 擎 ， 由 Datawateh 的 顾问 支持 的 客 制 化 实施 。 此 次 解决 方案 在 30 天 内 部 署 完毕 ， 
完成 后 用 户 就 可 以 创立 自己 的 仪表 分 析 盘 了 。 

投资 组 合 主管 杰 森 ' 康 勒 表示 : “我 们 的 分 析 师 现在 能 够 建立 并 且 发 布 完全 由 他 们 的 独 
特 方法 产生 的 个 性 化 仪表 分 析 盘 并 用 其 去 分 析 市 场 数据 。 他 们 的 合作 效率 更 高 了 ， 并 且 能 够 
用 更 短 的 时 间 去 发 现 异常 值 。” 


10.1.5 ”对 冲 基金 选择 Datawatch 来 观察 实时 的 市 场 流 数据 


Datawatch 被 世界 各 地 的 知名 银行 、 对 冲 基金 和 券商 所 广泛 采用 。 公 司 高 管 、 基 金 经 理 、 交 
易 员 和 分 析 师 都 频繁 地 使 用 这 个 先进 的 数据 可 视 化 工具 来 引导 业务 型 利 ， 同 时 密切 关注 风险 。 

“实时 ”的 概念 是 非常 模糊 的 ， 因 为 几乎 所 有 的 软件 公司 都 表示 ， 他 们 的 可 视 化 系统 能 
处 理 “ 实 时 ”的 需求 。 然 而 ， 绝 大 多 数 情 况 下 ， 他 们 的 意思 是 ， 每 当 有 新 的 数据 需求 时 ， 其 
软件 可 以 从 外 界 数据 源 获取 更 新 。 比 如 ， 某 系统 可 能 发 出 更 新 需求 ， 以 便 产 生 新 的 图 表 。 该 
系统 从 外 界 资源 获取 更 新 数据 ， 并 且 在 获取 数据 的 同时 展示 在 显示 器 上 。 在 特定 的 时 刻 ， 这 
些 数据 是 精确 的 ; 然而 精确 性 立即 就 会 过 期 ， 因 为 程序 在 执行 完整 个 刷新 过 程 之 前 ， 是 不 会 
进行 可 用 数据 升级 的 。 

Datawatch 可 以 实现 真正 的 实时 分 析 ， 像 CEP 引 擎 和 消息 总 线 这 样 的 外 界 系 统 将 不 断 把 数 
据 推进 到 系统 中 一 一 没有 定期 间隔 ， 而 是 即刻 不 间断 地 分 笔 进行 。 比 如 某 对 冲 基金 要 求 不 包 
括 内 部 IT 的 小 型 公司 ， 做 成 可 视 化 实时 的 市 场 流 数据 ， 实 行 快速 部 署 。Datawatch 团 队 进 行 需 
求 分 析 后 ,决定 由 交易 员 自 身 实施 解决 方案 ， 把 Datawatch 链 接 到 Thomson Reuters 和 Bloomberg 
feeds 产生 的 数据 。 解 决 方案 实施 后 ， 该 对 冲 基金 能 进行 更 加 有 利 可 图 的 交易 ， 用 更 少 的 时 间 
搜索 交易 ， 更 容易 地 管理 多 个 战略 。 图 10.5 显 示 的 是 某 对 冲 基金 的 仪表 分 析 盘 。 


图 10.5 ”对 冲 基 金 的 仪表 分 析 盘 
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康 勒 信息 部 副 总 表示 : “Datawatch 让 我 可 以 更 便利 地 跟踪 个 别 股票 和 不 同 分 区 。 
Datawatch 这 个 可 视 化 工具 包 已 经 在 交易 方面 对 我 产生 了 极 大 的 帮助 。” 


10.1.6 衍生 品 交易 公司 的 交易 活动 的 浏览 与 分 析 

某 衍生 品 交易 公司 要 求 识别 期 权 定价 异常 ,检测 订单 活动 和 模型 定价 异常 ， 进 行 时间 
序列 数据 分 析 ， 进 行 可 交互 树 图 可 视 化 ， 并 链接 到 多 个 SQL 数据 库 。Datawatech 团 队 对 这 些 
需求 分 析 后 ， 决 定 由 客户 来 主导 实施 。Datawatch 被 部 署 到 5 个 仪表 盘 设计 师 和 37 个 交易 员 的 
终端 系统 上 ， 客 户 团队 开发 了 六 个 不 同 的 仪表 分 析 盘 ( 如 图 10.6 所 示 ) ， 用 于 比较 按 市 值 
计算 和 按 模型 计算 的 不 同 交易 结果 。 此 次 解决 方案 用 7 周 完成 了 部 署 ， 所 有 的 交易 员 和 分 析 
师 都 拥有 了 客 制 化 的 仪表 分 析 盘 ， 在 单个 仪表 分 析 盘 中 首席 投资 官能 够 浏览 全 公司 业务 范 
围 的 交易 活动 。 

某 衍生 品 交 易 公 司 首席 投资 官 表示 : “我 们 需要 一 个 可 以 支持 交易 员 并 且 为 高 级 管理 者 
提供 综合 分 析 视 图 的 平台 。 我 们 也 需要 一 个 优化 金融 时 间 序 列 数据 的 系统 。 很 显然 ，atawatch 
是 一 个 很 好 的 选择 。” 


图 10.6 ” 某 衍生 品 交易 公司 仪表 分 析 盘 


10.1.7 ”跨国 保险 公司 连接 多 个 数据 库 来 进行 风险 分 析 


Datawatch 几 乎 可 以 连接 任何 数据 源 ， 包 括 即时 数据 串 流 、 消 息 总 线 、 复 杂事 件 处 理 
( CEP ) 引擎 的 输出 、0Data 源 、 平 面 文件 、 关 系数 据 库 和 专 有 数据 格式 等 。 某 跨国 保险 公司 
应 用 Datawatch 提 供 的 功能 来 实现 其 风险 分 析 。 
该 保险 公司 需要 对 多 个 产品 组 合 进行 实时 风险 分 析 ， 连 接 到 CEP 引 擎 和 相关 数据 库 ， 通 过 
网 页 部 署 、 分 析 CEP 引 擎 的 多 维 数据 流 ， 实 行 快速 增长 的 数据 设置 。 该 解决 方案 由 Datawateh 团 
队 主 导 实 施 ， 将 Datawatch 连 接 至 CEP 引 擎 数据 流 、Oracle 数 据 库 、SQL Server 数据 库 和 Thomson 
Reuters 高 速 分 析 数 据 库 。Datawatch 团 队 在 30 天 内 完成 了 部 署 ， 平 台 能 够 支持 未 来 至 少 五 年 的 数 
据 要 求 ， 所 有 分 析 师 和 交易 员 的 桌面 都 部 署 了 交互 式 仪表 分 析 盘 ， 如 图 10.7 所 示 。 
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图 10.7 某 跨 国保 险 公司 的 仪表 分 析 盘 


某 跨国 保险 公司 首席 信息 官 表示 : “我 们 选择 Datawatch EX 作为 风 控 系统 前 端 ， 因 为 它 
具有 实时 分 析 显示 的 能 力 ， 大 范围 的 可 视 化 和 公司 成 熟 的 金融 应 用 程序 。” 


上 10.2 ”大 数据 在 医疗 行业 中 的 应 用 案例 


早 在 很 久 以 前 ， 医 疗 行业 就 遭遇 着 海量 数据 、 半 结构 化 和 非 结构 化 数据 的 挑战 与 机 遇 。 
而 大 数据 的 出 现 为 海量 医疗 数据 的 分 析 挖 掘 提供 了 可 能 。 新 一 代 医学 技术 的 出 现 ， 也 标注 
着 医学 研究 已 经 进入 大 数据 时 代 -。 在 此 ， 笔 者 介绍 一 下 目前 大 数据 在 医疗 行业 中 的 几 个 应 
用 案例 。 


10.2.1 美国 糖尿 病 患者 分 布 情况 分 析 


由 美国 疾病 预防 和 控制 中 心 ( CDC ) 来 提供 数据 ， 现 在 Datawatch 可 以 进行 糖尿 病 患 者 分 
布 情况 的 分 析 。 将 Datawatech 可 视 化 系统 嵌入 到 现 有 的 数据 系统 中 ， 在 单个 界面 中 就 能 够 浏览 
全 美国 糖尿 病 患者 的 分 布 情况 ( 如 图 10.8 所 示 ) 并 能 对 比 各 个 州 的 患 病 率 。 用 简单 直观 的 图 
形 和 颜色 来 对 比美 国 糖尿 病 患者 绝对 数量 及 相对 数量 的 分 布 情况 ( 如 图 10.9 所 示 ) ， 从 而 分 
析出 影响 糖尿 病 的 各 种 地 理 环境 因素 。 

考虑 到 糖尿 病 涉 及 面 广 、 复 杂 和 多 维 的 特点 ， 通 过 对 大 量 糖 尿 病 患者 的 详细 资料 ， 如 
就 医 情 况 、 健 康 数据 、 病 情史 等 进行 分 析 ， 对 比 糖尿 病 的 发 病 率 与 贫穷 率 、 人 口 、 家 庭 收 
人、 教育 程度 之 间 的 关系 ， 从 而 揭示 出 可 能 对 健康 产生 影响 的 社会 因素 和 环境 因素 ， 如 图 
10.10 所 示 。 
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图 10.9 糖尿 病 患 者 各 年 龄 层 在 美国 各 州 的 分 布 
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图 10.10 糖尿病 与 贫穷 、 人 口 、 家 庭 收入 以 及 教育 程度 的 关系 
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10.2.2 ”医疗 机 构 病 房 的 实时 监控 


在 传统 的 模式 里 ， 患 者 的 病例 数据 是 以 文本 或 者 表格 的 形式 显现 出 来 的 ， 繁 琐 而 复杂 ， 
十 分 不 利于 隐藏 信息 的 捕捉 和 获取 。 所 以 ， 医 疗 机 构 要 想 达 到 对 病房 实时 监控 的 目的 ， 就 显 
得 十 分 困难 了 。 

Datawatch 的 出 现 能 够 扭转 乾坤 ， 它 实现 了 在 一 个 仪表 分 析 盘 中 直接 链接 各 个 病房 并 与 现 
有 的 医疗 信息 基础 建设 相 融 合 ， 让 医疗 机 构 可 以 更 加 便利 地 跟踪 每 位 病房 患者 的 动态 情况 ， 
实现 了 对 于 病房 患者 的 实时 监控 ， 如 图 10.11 所 示 。 接 下 来 就 Datawatch 在 医疗 机 构 病房 实时 监 
控 方面 的 强大 功能 来 做 一 个 比较 详细 地 说 明 。 
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图 10.11 实时 监控 患者 体征 动态 一 览 图 

图 10.11 显 示 的 是 病房 实时 监控 下 患者 体征 的 动态 变化 情况 ， 从 这 里 能 够 看 到 病房 不 
断 波动 变化 着 的 动态 效果 ,但 是 此 图 只 能 以 某 一 个 时 间 点 的 图 示 为 例 来 说 明 ( MICU， 
medical intensive care unit， 内 科 重 症 监护 室 ; RR，relative risk， 相 对 危险 度 ; LFHF ratio，low 
frequency/ high frequency， 高 低频 之 比 ; TP，total protein， 总 蛋白 ) 。 

从 图 10.11 中 可 以 非常 清晰 直观 地 看 到 房间 的 整体 布局 ， 同 时 还 能 获知 病房 患者 的 分 布 情 
况 。 比 如 哪些 房间 没有 患者 ， 哪 些 房间 有 上 患 者。 圆圈 的 大 小 表示 高 低频 之 比 ( LF/HF ) 的 大 
小 (这 是 衡量 心脏 功能 的 一 个 指标 ) ,圆圈 越 大 ， 表 明 比 值 越 大 ， 反之， 比值 越 小 ; 圆圈 的 
颜色 表示 患者 相对 危险 度 ( RR， 这 里 特 指 发 生 医院 感染 的 相对 危险 度 ) 的 高 低 ， 红 色 表 示 相 
对 危险 程度 高 ， 最 小 的 是 蓝 色 ， 其 次 还 有 绿色 、 黄 色 等 。 图 形 颜色 以 及 大 小 的 动态 变化 非常 
直观 ， 医 护 人 员 能 够 及 时 地 依据 这 些 指标 做 出 判断 ， 从 而 给 患者 提供 更 好 的 服务 。 此 外 ， 还 
可 以 从 该 图 右上 角 看 到 病房 患者 的 年 龄 、 性 别 的 分 布 情况 ,不同 的 颜色 表示 不 同 的 年 龄 段 ， 
区 域 面 积 的 大 小 表示 患者 的 多 少 。 从 中 可 以 很 直观 地 判断 出 男性 患者 多 于 女性 患者 ， 并 且 男 
性 患者 中 以 41 ~ 59 岁 年 龄 段 最 多 ， 而 女性 患者 以 61 ~ 79 岁 年 龄 段 最 多 。 另 外 ， 还 可 以 从 不 同 
的 角度 去 直观 地 分 析 此 图 ， 例 如 当 我 们 做 出 不 同 的 选择 时 ， 可 以 很 清晰 地 认识 到 不 同 的 颜色 
还 可 以 表示 不 同 的 年 龄 段 以 及 不 同 的 相关 病史 等 ， 如 图 10.12 所 示 。 

此 外 ， 当 医生 想 了 解 某 一 位 病人 的 一 些 具体 情况 ( 例如 病人 的 通气 状况 、 相 关 病 史 、 诊 
断 手术 情况 等 ) 或 者 相关 指标 的 具体 值 时 ， 通 过 简单 的 操作 就 可 以 获取 ( 见 图 10.13 ) 相关 信 
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息 ， 这 有 助 于 医护 人 员 快 速 有 效 地 依据 综合 因素 制定 诊疗 计划 ， 极 大 地 提高 了 医疗 效率 。 而 
这 对 于 患者 而 言 是 至 关 重 要 的 。 图 10.14 所 示 为 病房 实时 监控 呈现 的 患者 相对 危险 度 。 
| 


| ee FT 


图 10.12 病房 患者 年 龄 /性 别 呈现 图 10.13 ”病房 患者 信息 的 具体 呈现 


Datawatch 可 以 充分 利用 点 状 图 、 树 形 图 以 及 线形 图 把 病房 患者 指标 的 动态 变化 以 清晰 
直观 的 形式 呈现 出 来 ， 如 图 10.14 所 示 。 在 左 侧 的 点 状 图 中 ,颜色 代表 患者 的 相对 危险 度 
(RR ) ,红色 表示 患者 的 相对 危险 度 高 ， 蓝 色 表 示 患 者 的 相对 危险 度 最 低 ， 其 次 还 有 绿色 、 
黄色 ， 当 然 ， 最 引起 医护 人 员 注意 和 重视 的 无 疑 是 “红色 ”的 出 现 。 除 此 之 外 ， 圆 圈 的 大 小 
代表 总 蛋白 (TP ) 的 多 少 ， 当 圆圈 越 来 越 小 时 ， 预 示 着 患者 总 蛋白 的 急剧 下 降 ， 这 时 就 会 引 
起 医护 人 员 的 注意 并 及 时 地 采取 相应 的 解救 措施 。 树 形 图 中 方块 的 大 小 代表 总 蛋白 (TP ) 的 
多 少 ， 方 块 的 颜色 表示 相对 危险 度 ( RR ) ， 其 具体 的 意义 与 点 状 图 是 一 致 的 。 该 图 右 侧 同 
样 也 是 综合 利用 线形 图 、 树 形 图 以 及 数据 的 直接 变化 充分 呈现 出 相对 危险 度 和 总 蛋白 两 个 指 
标的 实时 变化 。Datawatch 这 种 丰富 的 可 视 化 视图 给 人 们 带 来 耳目 一 新 的 感觉 ， 清 晰 直观 的 画 
面 感 特别 符合 人 们 对 颜色 、 大 小 变化 的 这 种 高 敏感 度 ， 有 助 于 医护 人 员 及 时 地 作出 判断 。 当 
然 ， 除 了 上 述 介绍 到 的 有 关 患 者 的 某 些 生命 指 标 以 及 相关 情况 ，Datawatch 可 以 根据 医疗 机 构 
的 具体 要 求 做 出 相应 的 实时 监控 ， 以 满足 实际 需求 。 
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图 10.14 ”病房 实时 监控 呈现 的 患者 相对 危险 度 
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10.2.3 流行 病 学 研究 

在 此 本 书 引 用 了 复旦 大 学 《上 海地 区 门诊 儿童 流行 性 感冒 的 流行 病 学 研究 》 这 篇 硕士 毕 
业 论文 的 实验 数据 ， 通 过 采用 Datawatch 的 可 视 化 技术 ， 对 论文 的 实验 结果 进行 了 多 维度 的 直 
观 展示 ， 曾 明 Datawateh 工 具 在 流行 病 学 研究 上 可 以 提供 的 帮助 。 

首先 展示 的 是 Datawateh 采 用 热力 图 、 树 形 图 和 饼 状 图 三 种 不 同 图 形 多 维度 分 析 儿 童 的 临 
床 特征 ， 如 图 10.15 所 示 。 


图 10.15 三 种 流感 的 临床 特征 对 比分 析 
Datawatch 工 具 自 带 了 多 种 图 形 ， 相 同 的 实验 数据 可 以 用 不 同 的 图 形 来 展示 ， 不 同 的 图 
形 侧重 点 不 一 样 ， 研 究 者 可 以 根据 实际 需要 选择 最 合适 的 展现 方式 ， 或 者 采用 两 种 或 多 种 图 
形 ， 相 互 辅助 诠释 数据 信息 。 
例如 ， 将 图 10.15 中 的 热力 图 放大 ， 如 图 10.16 所 示 。 其 中 ， 颜 色 代表 百分比 ， 同 列 中 颜色 
越 深 代 表 在 该 流感 中 出 现 这 种 临床 症状 的 百分比 越 高 。 该 热力 图 针对 同一 临床 特征 在 三 种 类 
型 的 流感 出 现 的 百分比 作出 了 清晰 直观 的 呈现 ， 简 洁 明了 ,通俗 易 懂 。 


~ 病例 症状 , 
38.38.9*5 39-39.9:C WB0 检 -。 WBC 检 .。 W8C 检 .， 喘息 / 示 .， 大 于 40*C 闫 演 / 顾 .，。 咳 耽 流 兹 。 热 性 心 原 。 咽 痛 
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图 10.16 ”热力 图 对 比分 析 三 种 流感 的 临床 特征 
接着 采用 柱状 图 、 热 力图 以 及 饼 状 图 进一步 分 析 里 面 的 WBC 监 测 指数 及 热风 指数 。 如 图 
10.17 所 示 ， 其 中 柱状 图 的 颜色 代表 百分比 ， 柱 高 代表 人 数 ; 热力 图 颜色 代表 人 数 ， 该 图 呈 
现 了 三 种 不 同类 型 的 流感 在 不 同 WBC 范 围 内 的 患者 数 。 饼 状 图 尺寸 代表 人 数 ， 颜 色 代 表 百 分 


342 | 大 数据 导论 : 关键 技术 与 行业 应 用 最 佳 实践 


比 。 这 里 Datawatch 采 用 三 种 不 同 的 视图 形式 对 同一 数据 进行 了 可 视 化 分 析 ， 能 让 用 户 十 分 直 


图 10.17 ”三 种 流感 的 WBC 监 测 指数 及 热风 指数 对 比分 析 

总 体 上 ， 从 三 种 流感 的 各 类 临床 特征 图 像 的 对 比分 析 不 难看 出 ， 甲 型 H3N2 伴 随 流 涕 和 咳 
嗽 更 常见 ， 出 现 热 性 惊厥 的 比例 更 高 ; 乙 型 流感 伴随 虹 息 / 声 呈 的 比例 、 咽 痛 以 及 腹痛 症状 高 
于 其 他 两 种 ， HIN1 患 儿 出 现 腹部 症状 及 咽 痛 的 比例 较 低 ; WBC 检 测 显 示 绝 大 部 分 儿童 符合 病 
毒 感染 指标 等 。 

此 外 ， 研 究 者 发 现 儿 童 患者 在 发 病 前 ， 有 的 明确 与 发 热 或 急性 呼吸 道 感染 患者 密切 接触 
史 ， 为 此 对 季节 性 H3N2、 新 型 甲 型 HIN1 和 乙 型 流感 的 暴露 对 象 情 况 作 了 分 析 。 分 别 采用 树 
形 图 和 点 状 图 进行 展示 ， 如 图 10.18 所 示 。 
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图 10.18 三 种 流感 暴露 对 象 情况 分 析 
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树 形 图 的 方块 大 小 代表 人 数 ， 颜 色 代 表 暴 露 对 象 百分比 。 点 状 图 中 颜色 同样 代表 暴露 对 
象 百分比 ，Y 轴 表示 暴露 对 象 类 别 ，x 轴 表示 暴露 对 象 数量 。 这 样 可 以 很 直观 地 看 出 ， 三 种 亚 
型 暴露 对 象 均 以 家 庭 成 员 为 主 ， 占 45% ~ 81% ， 其 次 是 在 校生 或 幼 托 儿童 ， 如 图 10.19 所 示 。 
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图 10.19 点 状 图 分 析 三 种 流感 暴露 对 象 情况 
接着 进一步 对 家 庭 成 员 的 暴露 情况 进行 分 析 ， 如 图 10.20 所 示 ， 块 的 大 小 代表 人 数 ， 颜 色 
代表 百分比 ， 红 色 越 深 代表 所 占 比 例 越 高 ， 蓝 色 则 反之 。 从 图 中 可 以 轻易 判断 出 3 种 亚 型 的 家 
庭 成 员 暴露 对 象 中 父母 占 绝 大 部 分 。 通 过 对 总 暴露 情况 和 家 庭 成 员 暴露 情况 的 分 析 ， 显 示 在 
家 庭 和 集体 机 构 中 传播 是 流感 的 主要 传播 方式 。 


Click here to enter title 巴 


Breakdown Y Sie 人 数 v Color 所 占 比例 v lcons: [Drop Column] v Details: [Drop Column] 
| 


图 10.20 ” 饼 状 图 分 析 三 种 流感 家 庭 成 员 暴露 对 象 情况 
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在 整个 流感 案例 里 面 ， 运 用 Datawatch 工 具 ， 采 用 热力 图 、 树 形 图 、 点 状 图 和 饼 状 图 对 
研究 数据 进行 分 析 。 从 简洁 鲜明 的 图 像 中 ， 可 以 更 便捷 地 分 析 流 感 的 临床 特征 及 暴露 对 象 情 
况 。 对 不 同 的 变量 进行 对 比分 析 ， 帮 助人 们 更 快 地 还 原 数据 背后 的 信息 ， 不 得 不 说 Datawatch 
是 医学 研究 的 好 工具 、 好 帮手 。 


和 10.3 ”大 数据 在 互联 网 企业 中 的 应 用 案例 


21 世 纪 是 信息 化 的 世纪 ，“ 无 处 不 在 ”的 互联 网 使 由 此 产生 的 用 户 数据 越 来 越 庞 大 ， 而 
随 着 大 数据 技术 的 日 益 成 熟 ， 这 庞大 的 数据 成 为 一 笔 不 可 估量 的 财富 ， 互 联网 企业 通过 消费 
者 浏览 、 购 物 等 相关 数据 ， 来 对 其 消费 习惯 、 生 活 方式 等 加 以 分 析 ， 从 而 进行 精准 营销 。 亚 
马 逊 、 淘 宝 网 、Facebook 等 互联 网 企业 都 是 善于 利用 大 数据 技术 的 代表 企业 。 


10.3.1 亚马逊 

亚马逊 以 企业 云 平台 闻名 于 世 ， 虽 然 该 公司 拥有 高 质量 的 用 户 数据 资源 和 巨大 的 网 站 流 
量 , 但 在 之 前 相当 长 的 一 段 时 间 内 ， 亚 马 逊 还 是 将 主要 的 精力 集中 在 产品 销售 上 ， 广 告 只 是 
作为 其 销售 业务 的 补充 。 然 而 仅 2013 年 一 年 ， 亚 马 逊 的 广告 收入 就 激增 了 45.51% ， 而 且 仍 
然 在 持续 地 增长 。 虽 然 广告 这 项 收入 在 集团 总 收入 中 所 占 比例 很 低 ， 跟 其 他 广告 巨头 相 比 也 
还 有 很 大 的 差距 ， 但 越 来 越 多 基于 海量 用 户 数据 的 丰富 广告 产品 的 出 现 和 广告 带 来 的 收入 增 
长 ， 正 是 大 数据 分 析 在 企业 内 部 应 用 的 价值 体现 。 

亚马逊 希望 通过 对 客户 行为 的 分 析 来 提升 广告 的 投资 回报 率 ， 实 现 精准 营销 。 亚 马 逊 拥 
有 世界 级 的 个 性 化 推荐 技术 、 无 可 比拟 的 用 户 数据 和 互动 视频 内 容 。 目 前 ， 亚 马 逊 正在 利用 
这 些 优势 ， 努 力 构 建新 一 代 的 广告 产品 。 这 种 新 一 代 的 广告 产品 就 是 基于 强大 的 需求 方 平台 
(DSP ) 的 实时 竞价 (RTB ) 广告 模式 ， 它 可 以 实现 真正 基于 用 户 兴 趣 的 广告 呈现 方式 。RTB 
模式 通过 对 庞大 用 户 信息 的 掌握 和 精准 定位 ， 使 亚马逊 能 够 在 海量 用 户 中 将 不 同 特点 或 个 性 
化 特征 有 差异 的 用 户 进行 分 类 ， 然 后 将 分 类 好 的 用 户 群 与 不 同类 型 的 广告 进行 匹配 。 如 果 广 
告 投放 的 商品 恰好 是 用 户 需要 或 者 感 兴趣 的 产品 ,那么 广告 就 能 产生 最 大 的 效益 。 

为 了 达到 该 目的 ， 亚 马 逊 采用 自身 的 基础 设施 云 服 务 ， 后 台 采 用 Hadoop 技 术 架 构 的 100 
个 节点 的 按 需 弹性 MapReduce 集 群 。 亚 马 逊 Web 服 务 的 弹性 MapReduce 在 亚马逊 弹性 计算 云 
( Amazon EC2 ) 和 亚马逊 简单 存储 服务 ( Amazon S3 ) 上 运行 ， 具 有 极 强 的 拓展 性 。 如 此 一 
来 ， 可 以 将 处 理 时 间 从 2 天 降 到 8 小 时 ， 广 告 投资 回报 率 也 增加 了 500%。 

2013 年 12 月 ， 亚 马 逊 获得 了 “预测 性 物流 ”专利 。 该 专利 将 大 数据 应 用 系统 与 物流 系统 
相 结合 ， 使 该 公司 能 在 客户 点 击 “ 购 买 ”之 前 就 开始 递送 商品 。 该 专利 会 根据 某 一 特定 地 区 
的 客户 过 往 的 订单 和 其 他 相关 因素 ， 预 测 客户 可 能 购买 但 还 未 订购 的 商品 ， 并 且 开始 对 这 些 
商品 进行 包装 和 递送 。 这 些 预 寄 送 的 商品 在 客户 下 单 之 前 ,会 先 存 放 在 快递 公司 的 寄 送 中 心 
或 者 卡车 上 ， 在 顾客 下 单 购 买 后 就 可 以 更 快 地 送 达 ， 有 效 地 减少 了 交 货 时 间 。 具 体 流程 如 图 
10.21 所 示 。 
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图 10.21 “预测 性 物流 ”运营 流程 图 
在 对 “预测 性 物流 ”商品 进行 预测 时 ， 亚 马 逊 会 综合 考虑 顾客 以 前 的 订单 、 搜 索 的 产 
品 、 愿 望 清 单 、 购 物 车 的 内 容 、 退 换 货 的 情况 ， 甚 至 是 顾客 的 鼠标 停留 在 某 件 商品 的 时 长 等 
各 种 因素 ， 以 提高 预测 的 准确 度 。 
亚马逊 表示 ， 预 测 性 物流 的 方法 尤其 适用 于 预 售 的 商品 ， 特 别 是 预先 定 于 某 一 天 开 售 的 
热门 书籍 等 。 这 项 专利 体现 了 一 个 正在 兴起 的 趋势 一 一 智能 预测 ， 即 技术 和 消费 企业 越 来 越 
倾向 于 在 消费 者 采取 购买 行动 之 前 预测 其 需求 ， 而 不 是 在 消费 者 购买 之 后 做 统计 。 


10.3.2 淘宝 网 


对 于 大 多 数 系统 来 说 ， 大 规模 小 文件 的 读 写 操作 是 一 个 棘手 的 问题 。 因 为 大 规模 小 文件 
在 读 取 时 ， 磁 头 需 要 进行 多 次 的 寻 道 和 换 道 ， 导 致 较 长 的 时 延 。 在 大 量 高 并 发 访问 量 的 情况 
下 ， 时 延 将 会 变 得 非常 严重 。 淘 宝 也 面临 大 规模 小 图 片 的 存储 和 读 取 这 一 难题 。 

整个 淘宝 网 流量 中 ,图 片 的 访问 流量 就 高 达 90% 以 上 ， 而 且 网 站 中 的 图 片 数量 以 每 年 2 倍 
的 速度 增长 。 淘 宝 网 整个 图 片 存 储 系统 的 容量 为 1800TB ( 1.8PB ) ， 其 中 被 占用 的 空间 就 达 
到 一 半 以 上 ( 约 1PB ) 。 淘 宝 网 需要 保存 的 图 片 总 数 接近 300 亿 个 ， 这 些 图 片 文件 包括 原 图 
及 其 略 缩 图 ( 一 个 原 图 可 能 要 生成 20 个 不 同 尺寸 的 略 缩 图 ) 。 图 片 的 平均 大 小 约 为 17KB， 
其 中 8KB 以 下 的 图 片 就 占 了 60% 以 上 。 如 此 大 规模 的 小 图 片 读 写 给 淘宝 网 的 系统 带 来 了 巨大 
的 压力 。 

为 了 解决 这 一 难题 ， 淘 宝 文件 系统 TFS ( Taobao File System ) 应 运 而 生 ， 于 2007 年 正式 
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上 线 运营 。 该 文件 系统 在 生产 环境 中 应 用 的 规模 达到 了 200 台 PC Server ( 146G x 6 SAS 15K 
Raid5 ) ， 文 件数 量 达到 上 亿 级 别 ， 系 统 部 署 存储 容量 为 140 TB， 实 际 使 用 存储 容量 为 50TB， 
单 台 支 持 随机 IOPS 200+。 到 2009 年 6 月 ，TFS 1.3 版 本 上 线 ， 集 群 规模 有 了 很 大 拓展 ， 整 个 
系统 从 原 有 200 台 PC Server 扩 增 至 440 台 PC Server ( 300G x 12 SAS 15K RPM ) +30 台 PC Server 
(600G x 12 SAS 15K RPM ) ， 支 持 的 文件 数量 也 扩容 至 百 亿 级 别 ， 系 统 部 署 存储 容量 ; 
1800TB ( 1.8PB ) ， 实 际 存储 容量 为 99STB， 单 台 Data Server 支 持 随机 IOPS 900+。 


10.3.3 Facebook 


Facebook 是 个 大 型 社交 网 站 ， 该 网 站 每 天 都 会 产生 海量 的 数据 ， 其 系统 的 数据 量 是 15 PB 
(压缩 以 后 为 2.5PB ) ， 每 天 增加 的 数据 量 是 60 TB ( 压缩 以 后 是 10 TB ) 。 

在 Facebook 的 数据 分 析 系统 中 ， 处 在 系统 边缘 的 关系 型 数据 库 系 统 负责 进行 OLTP ( On- 
Line Transaction Processing ) 类 的 事务 处 理 。 真 正 的 复杂 深度 分 析 ， 则 依靠 高 度 可 拓展 的 Hive- 
Hadoop 集 群 系统 来 完成 。 核 心 生产 用 Hive-Hadoop 集 群 系统 ( production Hive-Hadoop cluster ) 
定时 导入 交易 数据 ， 并 完成 重要 的 分 析 操作 。 经 过 分 析 和 聚合 之 后 的 数据 ， 可 以 重新 载 和 到 
关系 型 数据 库 系 统 中 (包括 Oracle RAC，federated MySQL 等 ) ， 接 受用 户 的 查询 。 

为 了 减轻 即席 查询 对 核心 Hive 系 统 造成 的 压力 ， 先 将 数据 复制 到 一 个 备份 的 Hive-Hadoop 
集群 系统 ( ad hoc Hive-Hadoop cluster ) ， 在 此 备份 系统 中 对 用 户 的 即席 查询 进行 处 理 ， 这 样 
就 可 以 隔离 未 经 优化 的 查询 可 能 给 核心 Hive 系 统 造成 的 性 能 冲击 ， 从 而 保证 核心 数据 分 析 系 
统 的 性 能 。 

由 于 MapReduce 技 术 具 有 良好 的 可 拓展 性 ， 这 个 系统 可 以 使 庞大 的 历史 数据 在 线 ， 对 历史 
久远 的 数据 也 可 以 很 快 地 进行 分 析 ， 还 可 以 结合 新 数据 和 新 算法 ， 对 新 知识 的 发 现 十 分 有 利 。 


上 10.4 ”大 数据 在 影视 行业 中 的 应 用 案例 


提起 大 数据 在 影视 行业 中 的 应 用 ， 非 常 典 型 的 一 个 案例 就 是 Netflix 公 司 利用 大 数据 预测 
分 析 ， 并 根据 预测 结果 投资 一 亿美 元 拍摄 了 新 版 《纸牌 屋 》， 该 剧 红 遍 北美 风靡 全 球 ， 创 收 
视 率 新 高 ， 开 创 了 大 数据 在 影视 行业 的 先河 。 除 此 之 外 ,大 数据 还 可 用 以 分 析 节 目 收视 特 
征 、 用 户 喜好 、 电 影 票房 等 ， 下 面 来 看 两 个 具体 的 案例 。 


10.4.1 大 数据 分 析 节 目 收视 特征 和 用 户 喜好 


自从 2013 年 湖南 卫视 国产 综艺 节目 《爸爸 去 哪儿 》 第 一 季 播 出 以 后 ， 全 国 刊 起 了 一 阵 
星 爸 萌 娃 潮 。 沿 袭 这 阵风 潮 ，2014 年 夏天 ， 《爸爸 去 哪儿 》 第 二 季 自 首播 以 来 ,反响 十 分 热 
烈 。 国 双 数据 中 心 基于 自主 创新 的 大 数据 视频 分 析 平 台 ， 结 合 湖南 卫视 芒果 TV 的 用 户 观看 数 
据 以 及 微 博 的 相关 热 议 ， 揭 示 了 针对 该 剧 的 节目 收视 特征 和 用 户 的 偏好 。 

从 第 二 季 第 二 期 的 用 户 24 小 时 播放 数据 中 可 以 看 出 ( 如 图 10.22 所 示 ) ， 中 午 12 点 左右 有 
一 个 显著 的 收视 午 高 峰 ， 下 午 直 至 晚上 十 点 左右 都 有 持续 的 播放 。 从 播放 时 长 来 看 ,平均 每 
次 播放 时 长 将 近 1 小 时 。 值 得 关注 的 是 ,凌晨 1 点 左右 有 一 次 小 的 波峰 ， 这 表明 有 一 批 错过 了 
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节目 直播 的 忠实 粉丝 会 通过 芒果 TV 官网 第 一 时 间 抢 看 点 播 视 频 。 
24 小 时 播放 曲线 


平均 播放 时 长 : 59:05 


01:26:24 10% 
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国平 均 播放 时 长 。 一 o 一 播放 占 比 


图 10.22 ”用 户 粘度 分 析 
从 用 户 回 看 状态 曲线 可 以 看 出 观众 对 哪些 情节 特别 关注 ， 尤 其 能 反映 观众 对 该 情节 的 喜 
爱 程度 。 从 芒果 TV 视频 用 户 的 回 看 情况 看 ( 如 图 10.23 所 示 ) ， 这 期 节目 有 很 多 亮点 ， 基 本 上 
每 个 时 段 都 有 观众 回 看 。 
回 看 状态 比例 
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图 10.23 ” 回 看 行为 分 析 
从 《和 爸爸 去 哪儿 》 第 二 季 开 播 以 来 ， 微 博 上 网 友 们 对 该 剧 的 关注 和 讨论 也 空前 火热 , 其 
中 《和 爸爸 去 哪儿 》 话 题 的 阅读 量 多 达 33.6 亿 次 ， 随 着 节目 的 播 出 ， 阅 读 量 仍 在 增加 。 通 过 大 
量 数据 分 析 显 示 ， 有 超过 60% 女 性 参与 讨论 ， 这 表明 相对 于 男性 ， 女 性 群体 对 亲子 节目 的 嘉 
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爱 程度 更 高 。 此 外 ， 从 兴趣 偏好 角度 来 看 ， 在 男 


性 和 女性 两 类 上 网 人 群 中 ， 女 性 网 友 更 关注 美食 。 37。 
男性 讨论 者 女性 讨论 者 驻 


环节 ， 而 男性 网 友 则 更 热衷 于 科技 和 体育 ， 如 图 
10.24 所 示 。 ER 姓 乐 | 
美食 人 
10.4.2 ”大 数据 分 析 电 影 票房 下 
2014 年 汤姆， 克 鲁 斯 主演 的 科幻 大 片 《 明 一 一 ee 
日 边缘 》 在 北美 的 票房 虽然 败 给 了 同 档期 的 爱情 科技 
TD 体育， 


片 《 星 运 里 的 错 》 和 由 童话 故事 睡 美人 改编 的 
《沉睡 魔 吕 》， 但 此 片 在 海外 却 有 不 俗 的 反响 ， 5 图 10.24 微 博 男女 比例 及 用 户 兴趣 分 析 
收获 1.4 亿 美元 的 海外 票房 ， 在 亚洲 表现 尤为 突出 。 著 名 的 娱乐 网 站 Vulture 做 了 一 份 大 数据 统 
计 , 分 析 汤 姆 . 克 和 鲁 斯 在 世界 各 地 的 票房 号 召 力 ( 如 图 10.25 所 示 ) 。 此 次 统计 所 采取 的 样本 
为 包括 《明日 边缘 》 在 内 的 由 汤姆 克 和 鲁 斯 主演 的 十 部 影片 。 
Ee 
日 本 251,915,668 
英国 加 到 191,646,2708 
中 国 国 国 汪 178,351,725 
韩国 如 天 顺 149,791,950 
法 国 加 RE 19,365,440 
德国 加 91,170,834 
澳大利亚 荐 国 84,806,130 
西班牙 加 75,275,739 
俄罗斯 加 66,649,828 
墨西哥 国 65.120.860 
意大利 国王 62,681,119 
巴西 55,092,794 
荷兰 国 27,283,843 
比利时 国 20,482,528 
瑞典 转 19,926,384 
中 国 香港 于 19.871,191 
马来西亚 于 18,929,434 
印度 尼 西 亚 国 17,828,550 
土耳其 于 16,077,019 
新 加 坡 国 15,978,785 
阿联酋 国 15.750.051 
挪威 国 14,809,090 
菲律宾 国 14,121,486 
奥地利 于 13,351,395 票房 单位 : 美元 


图 10.25 汤姆 克 鲁 斯 影片 票房 总 额 
从 汤姆 ， 克 鲁 斯 主演 的 影片 在 世界 各 地 的 票房 数据 分 析 可 以 看 出 ， 美 国人 民 依 旧 是 其 最 
大 的 拥戴 者 ，2004 年 至 今 ， 他 主演 的 十 部 电影 一 共 在 美国 就 收获 了 超过 十 亿美 元 的 票房 。 从 
榜 单 上 也 不 难看 出 汤姆 克 鲁 斯 在 亚洲 也 是 极 具 票 房 号 召 力 的 。 中 国 、 日 本 、 韩 国 三 大 票房 
收入 毫 无 疑问 全 部 跻身 前 五 名 。 


从 海外 票房 占 票房 总 额 的 比例 能 更 直观 地 看 
出 ， 海 外 市 场 对 汤姆 克 鲁 斯 影片 票房 起 到 至 关 重 
要 的 作用 ， 如 图 10.26 所 示 。 在 这 十 部 影片 中 ， 就 有 
高 达 九 部 的 海外 票房 占 总 票房 比重 超过 50% ， 最 高 
的 《明日 边缘 》 更 是 接近 80%。 这 样 “ 恺 怖 ”的 数 
据 足 以 显示 出 汤姆 ， 克 鲁 斯 巨大 的 国际 影响 力 。 

由 于 各 地 区 的 消费 水 平 不 同 ， 人 口 数量 也 存 
在 差异 ， 如 果 算 人 均 票房 的 话 ， 结 果 又 是 另 一 番 景 
象 了 ， 如 图 10.27 所 示 。 很 明显 ， 中 国 由 于 人 口 基数 
太 大 ， 人 均 消 费 票 房 一 下 子 就 被 远 远 甩 出 了 榜 单 ， 
而 冰岛 却 跃 居 到 第 一 位 。 美 国 排名 第 三 ， 亚 洲 地 区 
则 是 韩国 、 新 加 坡 位 置 最 靠 前 ， 分 列 第 五 、 第 六 
位 。 从 这 份 数据 也 能 看 出 ， 汤 姆 ， 克 鲁 斯 在 欧美 亚 
非 拉 等 各 个 地 区 都 有 一 定 吸 引力 ， 观 众 的 地 域 分 布 
十 分 广泛 。 

冰岛 4.77 

澳大利亚 
美国 
英国 
韩国 
新 加 坡 

挪威 
中 国 香港 
新 西 兰 2.68 
丹麦 
E300] 

日 木 天 WE 
比利时 
法 国 
阿联酋 
荷兰 
西班牙 


奥地利 
芬兰 
葡萄 二 国 II 
德 
斯 治文 尼 亚 国 ia 
意大利 国 K3 
以 色 列 区 

希腊 四 ED 票房 单位 : 美元 

$0 $1 $2 $3 $4 

图 10.27 ”世界 各 地 区 人 均 消费 汤姆 克 鲁 斯 影片 票房 
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明日 边 
危 情 谋 贞 
矶 中 吝 4 
中东 看 
磋 中 误 3 
世界 大 战 
行动 目标 希特勒 
借 刀 杀 人 


摇滚 年 代 
20% 40% 60% 
图 10.26 汤姆 克 鲁 斯 影片 海外 票房 占 总 票房 
总 额 百分比 


世界 大 战 类 灶 S689 
碟 中 谍 3 262,872 
碟 中 谍 4 让 241,501 
借 刀 杀人 站 184.713 
遗 落 战 境 国庆 大昌] 182,198 
危 情 谍 战 大 3 112.888 

侠 探 杰克 国 国 88,499 


行动 目标 希特勒 国 44,198 


明日 边缘 围 42,716 


摇滚 年 代 |28,994 
票房 单位 : 美元 


$25.000 $200,000 


图 10.28 ”冰岛 人 民 最 爱 的 汤姆 * 克 鲁 斯 影片 
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接 下 来 把 位 于 第 一 位 的 冰岛 数据 单独 调 出 来 ， 研 究 看 看 哪 一 部 影片 最 受 冰岛 人 的 喜爱 ， 
如 图 10.28 所 示 。 从 数据 中 一 目 了 然 地 看 出 ， 排 名 第 一 的 是 《世界 大 战 》， 比 第 二 名 的 《 碟 中 
谍 3》 高 出 近 10 万 美元 的 票房 。 由 此 可 以 看 出 ， 史 蒂 芬 . 斯 皮尔 伯 格 与 汤姆 * 克 鲁 斯 这 样 的 EE 
名 导 十 明星 的 组 合 还 是 很 受 观 众 欢 迎 的 。《 碟 中 谍 3》 和 《 碟 中 谍 4》 不 出 意外 也 分 别 占 据 第 
三 % 三 名 s 


10.5 练习 


1. 归纳 大 数据 在 金融 行业 有 哪些 具体 应 用 场景 。 

2. 通过 了 解 大 数据 在 金融 行业 的 应 用 案例 ， 分 析 大 数据 能 为 金融 行业 带 来 哪些 价值 。 
3. 除 了 本 书 的 案例 ， 举 例 说 明 大 数据 在 医疗 领域 还 有 哪些 应 用 场景 。 

4. 分 析 大 数据 能 为 互联 网 企业 带 来 哪些 变革 。 

5. 思考 大 数据 会 对 我 们 的 生活 产生 怎样 的 影响 。 
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第 11 章 


大 数据 应 用 的 主流 解决 方案 


Hadoop 结 合 了 成 本 低 、 可 扩展 性 佳 以 及 无 需 构建 预定 义 模 式 就 能 灵活 地 处 理 任何 数据 
等 优点 ?>， 是 目前 大 数据 解决 方案 的 主流 平台 ,也 是 顺应 未 来 大 数据 和 云 计算 环境 的 平台 
与 此 同时 ， 在 成 熟 的 管理 和 稳定 性 上 ， 主 流 市 场 对 其 提出 了 更 高 的 需求 ， 例 如 实现 SQL 环境 
的 丰富 功能 等 。 因 此 Hadoop 厂 商 在 不 断 地 努力 开发 更 加 成 熟 可 靠 的 工具 ， 对 其 功能 进行 

， 并 不 断 创新 技术 。 作 为 开山 鼻祖 的 Cloudera 拥 有 CDH 发 行 版 和 配套 的 管理 软件 ， 该 公 
eerie 态 系统 中 规模 最 大 、 知 名 度 最 高 ， te 它 还 是 为 
Hadoop 提 供 企 业 支 持 和 培训 服务 的 最 大 供应 商 ， 力 求 Hadoop 的 企业 安全 性 马 逊 很 早 就 进 
入 了 这 个 领域 ， 在 2009 年 推出 了 Amazon Elastic MapReduce， 对 Hadoop 的 需求 i 
指 掌 。Amazon Elastic MapReduce 运 行 在 亚马逊 简单 存储 服务 ( Amazon S3 ) 和 亚马逊 弹性 计算 
云 (Amazon EC2 ) 上 ， 对 于 数据 密集 型 任务 ， 用 户 需要 多 大 容量 ， 就 能 配置 到 多 大 容量 ， 是 

-项 能 够 迅速 扩展 的 Web 服 务 。2011 年 ，MapR 和 Hortonworks ( 后 者 从 雅虎 拆 分 出 来 ) 向 外 界 

宣布 了 各 自 的 Hadoop 软 件 发 行 版 ， 并 且 为 客户 提供 相关 的 支持 和 培训 服务 。MapR 的 发 行 版 比 
较 独 特 , 它 握 弃 了 不 喜欢 的 ， 尤 其 是 它 认为 是 单一 故障 点 的 Hadoop 分 布 式 文件 系统 即 HDFS， 
把 文件 系统 换 成 了 基于 UNIX 的 网 络 文件 系统 ， 从 开源 的 Apache 项 目 中 获取 所 需要 的 组 件 。 接 
着 人 们 认识 到 大 多 数 Hadoop 用 户 最 终 希 望 实现 的 是 数据 分 析 ， 因 此 专门 针对 Hadoop 的 数据 访 
上 商业 智能 和 分 析 工 具 厂 商 ， 如 Datameer、 Hadapt 和 Karmasphere@ 就 应 运 去 而 生 了 。Datameer 

要 是 将 商业 智能 用 到 大 数据 上 。Hadapt 主 要 提供 了 能 够 分 析 操 作 Hadoop 里 面 的 数据 ， 并 
te 寺 构 化 数据 的 一 体 化 分 析 环 境 。 而 Karmasphere 可 以 运用 SQL 及 其 他 语 
言 即 席 查 询 和 进一步 地 分 析 ， 还 可 以 直接 访问 Hadoop 里 面 结构 化 和 非 结 构 化 的 数据 。2011 
年 ， 随 着 五 家 主要 的 数据 库 和 数据 管理 厂商 积极 地 接受 了 Hadoop，Hadoop 开 始 迈 向 主流 ， 而 
IBM、EMC、Informatica、 微 软 和 甲骨 文 也 不 断 加 入 到 Hadoop 领 域 ， 使 得 Hadoop 领 域 的 竞争 
愈 发 激烈 。 其 中 IBM 和 EMC 发 布 了 各 自 的 Hadoop 发 行 版 ， 而 且 EMC 还 与 号 称 下 一 代 Hadoop 的 
MapR 结 为 合作 伙伴 。 为 了 支持 Hadoop ，Informatica 扩 展 了 其 数据 集成 平台 ， 将 其 数据 转换 代 
码 和 解析 代码 直接 融入 到 Hadoop 环 境 中 。 而 微软 和 甲骨 文 则 分 别 与 Hortonworks 和 Cloudera 合 
作 ，EMC 和 甲骨 文 还 发 布 了 随时 可 以 运行 Hadoop 的 专门 定制 的 硬件 设备 。 


© http://wenku.baidu.com/view/ebbf351a59eef8c75fbfb3e7.html 
©@ http://blog.sina.com.cn/s/blog_669fa76a01016y5e.html 
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11.1 Cloudera 大 数据 解决 方案 


“Hadoop 改 变 了 有 关 数 据 的 整个 谈 
话 。”Cloudera 首 席 执行 官 Tom Reilly 说 。 
Cloudera 是 Hadoop 生 态 系统 中 规模 最 大 、 知 
名 度 最 高 的 公司 ， 有 100 多 个 客户 。 该 公司 


致力 于 大 中 型 企业 整体 信息 化 服务 、 中 小 型 Unomonvcanplen 
企业 门户 网 站 、 商 业 智能 、 系 统 集成 和 应 用 届时 APACNE PIGAPACHE ME| Resonne 
软件 的 开发 ， 为 企业 提供 更 高 效 、 更 安全 、 cloudera DY 


更 专业 的 优质 开 服 务 ， 引导 企 业 进入 云 计算 ”区 MR ea 
时 代 。Cloudera 的 企业 解决 方案 包括 Hadoop oe 


软件 发 行 版 、Cloudera 管 理 器 及 支持 ， 其 产 APAGHE 2OOKESPER 
品 和 服务 如 图 11.1 所 示 。 图 11.1 ”Cloudera 的 产品 和 服务 

为 了 从 数据 中 获取 商业 价值 而 不 用 担心 如 何 管理 Hadoop 软 件 框架 ，2011 年 Dell 和 Cloudera 
联合 推出 了 Hadoop 解 决 方案 Cloudera Enterprise， 从 而 使 企业 可 以 更 轻松 地 使 用 开源 的 
Hadoop。 为 了 帮助 大 型 和 中 小 型 企业 从 数据 中 获取 更 多 的 商业 价值 ， 部 署 基于 开源 的 Apache 
Hadoop 解 决 方案 ，Cloudera 在 其 企业 分 析 数 据 管理 软件 中 ， 采 用 了 Apache Hadoop 驱 动 ， 与 英 
特 尔 至 强 技术 的 数据 中 心 架构 一 起 ， 提 供 了 客户 驱动 的 大 数据 解决 方案 。 英 特 尔 与 Cloudera 
在 大 数据 创新 方面 的 合作 更 加 紧密 ， 而 Cloudera 也 将 致力 于 开发 基于 英特尔 x86 架 构 的 Hadoop 
应 用 解决 方案 。 NetApp 和 Cloudera 公 司 联 合 发 布 了 Cloudera”s Distribution including Apache 
Hadoop ( CDH ) 和 Cloudera Enterprise。Cloudera Enterprise 是 一 项 订购 服务 ， 由 Cloudera Support 
和 Hadoop 管 理 软件 组 成 ， 可 通过 NetApp Open Solution for Hadoop 加 速 Apache Hadoop 的 企业 部 
署 和 生产 应 用 。CDH 为 Apache Hadoop 企 业 应 用 和 生产 应 用 创造 了 条 件 ， 它 有 助 于 深入 了 解 
Hadoop 集 群 ， 还 能 够 自动 执行 保持 和 提高 运行 质量 所 需 的 持续 系统 变更 。 

Cloudera 公 司 和 NetApp 的 合作 为 企业 提供 了 一 款 专 有 的 开放 式 解 决 方案 ， 该 解决 方案 
具有 高 度 的 可 扩展 性 和 企业 级 存储 功能 ， 可 显著 提高 性 能 并 降低 成 本 。 合 作客 户 能 够 利用 
Hadoop 提 高 分 析 应 用 的 使 用 率 ， 从 密集 型 数据 和 高 计算 负载 中 获得 实时 的 结果 。 通 过 合作 ， 
NetApp 和 Cloudera 提 供 了 开放 式 的 解决 方案 ， 从 而 实现 了 一 流 的 合作 伙伴 解决 方案 组 合 。 

近日 ，Cloudera 收 购 了 大 数据 加 密 专业 厂商 Gazzang， 其 竞争 对 手 Hortonworks 公 司 在 不 到 一 
个 月 之 内 收购 了 新 兴 的 安全 企业 XA Secure。 这 可 能 预示 着 安全 已 经 成 为 不 容 忽 视 的 核心 问题 ， 
而 此 次 Cloudera 收 购 Gazzang 将 使 其 Hadoop 解 决 方案 在 安全 性 方面 获得 企业 级 市 场 的 青睐 。 


11.2 ”Hortonworks 大 数据 解决 方案 


Hortonworks 是 由 Yahoo 和 Benchmark Capital 于 2011 年 7 月 联合 创建 的 一 家 企业 管理 软件 公 
司 ， 总 部 设 在 加 利 福 尼 亚 州 。 该 公司 专注 于 Apache Hadoop 框 架 ， 支 持 跨 计算 机 集群 分 布 式 处 
理 大 型 数据 集 。 该 公司 完全 支持 开源 的 软件 ， 其 所 有 的 代码 都 会 回馈 给 Apache Hadoop 项 目 。 
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主要 产品 是 一 款 开 源 的 基于 Apache Hadoop 的 数据 分 析 系 统 Hortonworks 数 据 平台 ( HDP ) ， 
如 图 11.2 所 示 。 该 平台 是 专门 用 来 应 对 多 格式 和 多 来 源 的 数据 ， 处 理 起 来 更 简单 、 更 有 成 
本 效益 ， 除 此 之 外 还 提供 大 数据 云 存 储 ， 大 数据 处 理 和 分 析 等 服务 。HDP 为 了 更 容易 地 集 
成 Apache Hadoop 的 数据 流 业 务 与 现 有 的 数据 架构 ， 还 提供 了 一 个 稳定 、 开 放 和 高 度 可 扩 
展 的 平台 。 该 平台 包括 各 种 的 Hadoop 分 布 式 文件 系统 ( HDFS ) 以 及 Apache Hadoop 项 目 、 
MapReduce、Pig、Hive、HBase、Zookeeper 和 其 他 各 种 组 件 ， 使 得 Hadoop 的 平台 更 易于 管 
理 ， 更 具有 开放 性 和 可 扩展 性 。 图 11.3 展 示 了 HDP 的 数据 来 源 、 数 据 类 型 以 及 应 用 。 


入 我 候 \ HORTONWORKS 
Hortonworks DATA PLATFORM (HDP) 


图 11.2 ”HDP ( Hortonworks 数 据 平台 ) 
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图 11.3 ”Hortonworks HDP 生 态 系 统 图 
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Hortonworks 还 提供 Hadoop 支 持 、 咨 询 和 培训 ， 在 竞争 力度 上 与 Cloudera 和 MapR 不 断 加 
大 。 该 公司 的 合作 伙伴 已 超过 140 个 ， 其 中 包括 微软 、Rackspace 和 Teradata 等 行业 巨头 。 在 与 
微软 的 合作 中 ，Hortonworks 将 帮助 微软 开发 一 款 遵循 Apache 开 源 项 目 原 则 的 、 与 Windows 兼 
容 的 Hadoop 版 本 ; 与 Rackspace 的 合作 旨 在 Hortonworks 自 己 的 云 服 务 中 实施 Hadoop 服 务 ; 而 与 
TeraData 的 合作 则 旨 在 帮助 企业 建立 基于 Hadoop 的 大 数据 分 析 环 境 。 


和 11.3 ”MapR 大 数据 解决 方案 


MapR 公 司 是 美国 加 州 的 圣何塞 市 的 一 个 企业 管理 软件 公司 ， 它 使 Hadoop 变 成 一 个 速度 
更 快 、 可 靠 性 更 高 、 管 理 更 容易 、 使 用 更 加 方便 的 分 布 式 计算 服务 和 存储 平台 ， 同 时 性 能 也 
在 不 断 提高 。MapR 号 称 是 下 一 代 的 Hadoop， 主 要 专注 于 可 用 性 和 数据 安全 优化 及 开发 、 销 
售 Apache Hadoop 的 衍生 软件 。 该 公司 对 Apache Hadoop 的 主要 贡献 有 : HBase、Pig ( 编程 语 
言 ) 、Apache Hive 以 及 Apache ZooKeeper。MapR 公 司 的 Apache Hadoop 发 行 版 提供 了 完整 的 数 
据 保 护 、 无 单 点 故障 等 功能 ， 这 大 大 提高 了 其 性 能 与 易 用 性 。MapR 还 被 亚马逊 云 服务 选择 为 
亚马逊 弹性 云 EC2 的 升级 版 本 。 

MapR 将 极 大 地 扩大 了 Hadoop 的 使 用 方式 和 范围 。 它 包含 了 开源 社区 的 许多 流行 的 工具 
和 功能 ， 例 如 HBase 和 Hive， 它 们 完全 和 Apache Hadoop 的 AP[ 兼 容 。 它 还 能 为 客户 节约 一 半 的 
硬件 资源 消耗 ， 通 过 海量 数据 的 分 析 提 升 竞争 优势 。MapR 目 前 有 两 个 版 本 ，M3 和 M5， 其 中 
M3 是 免费 的 ，M5 为 收费 版 (有 试用 期 ) 。Canonical 公 司 副 总 裁 Kyle MacDonald 表 示人 ， MapR 
nit “我 们 为 Ubuntu 客 户 提 供 了 高 效 执行 大 数据 的 新 途 

。 作 为 MapR 的 合作 伙伴 ，EMC 采 用 了 M5 作为 其 EMC Greenplum HD 企业 版 的 基础 。 而 整 
rtp ( 如 图 11.4 所 示 ) 。 分 布 式 的 NameNode 又 称 Container， 
与 Hadoop 原 始 设 计 中 的 NameNode 不 同 ， 


Container 不 仅 维护 用 户 文件 的 元 数据 ， MapR's Distributed NameNode 
也 维护 数据 块 。 每 个 Container 的 大 小 在 二 Files/directories are sharded into blocks, which 
面 are placed into mini NNs (containers ) on disks 

16 GB~32 GB 之 间 ( 这 也 就 意味 着 一 个 a 。 Each container contains 
节点 上 会 有 很 多 个 Container ) ， 同 一 个 站 NS 2 . Be 
Container 在 不 同 节点 间 有 副本 。 » Replicated on servers 

MapR 公 司 的 首席 执行 官 lohn Sn" 二 ~ ae 
Schroeder 表示 : “MapR 通 过 为 Hadoop 用 See YeeMapR Ot 
户 提供 专业 咨询 服务 来 获取 收入 。 目 前 EE 
公司 大 约 一 半 的 客户 是 传统 的 Web 和 基于 ene 
云 计算 的 公司 ， 而 另 一 半 则 是 金融 、 电 ze 名 
信和 制造 公司 。 我 们 希望 为 我 们 的 客户 图 11.4 MapR’s Distributed NameNode 


@®D http://mobile.163.com/13/0331/09/8ROMILIKOO11671M.html 
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提供 最 好 的 技术 。 几 乎 所 有 的 MapR 客 户 (92% ) 主要 的 花费 在 许可 证 上 ， 而 不 是 配套 服务 和 
支持 。” 由 于 MapR 认 为 传统 的 两 阶段 提交 和 基于 Quarum 的 协议 ( 例如 Paxos ) 都 有 局 限 性 ， 
于 是 提出 了 新 的 解决 方案 : MapR lockless transaction。 


和 11.4 亚马逊 大 数据 解决 方案 


亚马逊 以 企业 云 平 台 闻名 于 世 ?， 也 推出 过 一 些 大 数据 产品 ， 例 如 基于 Hadoop 的 Elastic 
MapReduce、DynamoDB 大 数据 数据 库 以 及 能 够 与 Amazon Web Services 顺 利 协作 的 Redshift 规 模 
化 并 行 数 据 仓 储 方案 。 

Amazon Elastic MapReduce ( EMR ) @ 是 一 个 用 于 开发 专业 性 较 强 的 应 用 程序 的 工具 ， 它 
使 用 开源 的 Hadoop， 以 便 分 配 数据 到 一 个 亚马逊 EC2 实 例 集群 中 。 

如 图 11.5 所 示 ，Amazon EMR 能 够 自动 加 快 MapReduce 框 架 在 Amazon EC2 实 例 上 的 Hadoop 
部 署 速度 ， 对 任务 流程 中 的 数据 进行 细 分 ， 使 之 成 为 更 小 的 数据 块 ， 以 便 可 以 并 行 处 理 ( 即 
“分 区 映射 ”功能 ) ， 然 后 重新 组 合 处 理 过 的 数据 ， 形 成 最 终 解 决 方案 ( 即 “ 规 约 分 区 ” 功 
能 ) 。 其 中 的 数据 分 析 源 以 及 最 终结 果 的 输出 目的 地 为 Amazon S3。EMR 能 根据 所 需 配置 容量 
大 小 ， 进 行 数据 密集 型 应 用 计算 ,完成 Web 索 引 、 数 据 仓 库 、 数 据 挖掘 、 日 志文 件 分 析 、 机 
器 学 习 、 财 务 分 析 、 科 学 模拟 和 生物 信息 研究 等 任务 。Amazon EMR 技 术 专 注 于 数据 分 析 ， 使 
得 用 户 无 需 担心 所 依靠 的 计算 能 力 以 及 费时 的 Hadoop 集 群 设置 、 管 理 或 调整 。 


弹性 块 S3 
存储 三 活 茹 ” 
使 用 私 钥 f 
通过 SSH 
方式 访问 亚马逊 机 器 
映像 
EC2 一 ”| 
实例 实例 实例 
私有 JP 地址 私有 IP 地 
存储 模块 
防水 坟 
公有 了 
地 址 
Jnternet 
图 11.5 EMR 
Amazon EMR 的 特点 如 下 。 


@ 访问 安全 。Amazon EMR 可 自动 配置 Amazon EC2 防 火 墙 ， 保 证 实例 之 间 的 访问 安全 


© http://www.techweb.com.cn/data/2013-09-05/1322160.shtml 
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以 及 运行 任务 流程 的 实例 的 网 络 访问 安全 。 用 户 可 以 在 Amazon Virtual Private Cloud 
(Amazon VPC ) 中 启动 任务 流程 ， 通 过 指定 IP 范 围 来 隔离 计算 实例 ， 并 使 用 行业 标 
准 加 密 IPsec VPN 策 略 连 接 现 有 的 IT 基础 设施 ， 以 确保 网 络 安全 。 

@ 支持 第 三 方 工具 。 为 了 方便 用 户 开发 ，Amazon EMR 能 完美 地 支持 众多 的 第 三 方 工具 
和 解决 方案 。 

@@ 应 变 灵 活 。Amazon EMR 能 够 运行 任意 数量 的 Hadoop 计 算 实例 ， 可 用 一 个 、 数 百 个 
甚至 数 千 个 实例 来 处 理 数 GB、 数 TB 甚至 数 PB 的 数据 。 

@ 经 济 实 患 。 支 付费 用 低 。 经 过 优化 的 Amazon EMR ， 可 对 任务 流程 的 进度 进行 监控 ， 
停 用 完成 流程 所 占用 的 资源 ， 尽 力 为 用 户 节省 每 一 笔 开支 。 

@ 使 用 便捷 。Amazon EMR 拥 有 工具 和 示例 数据 处 理应 用 程序 ， 无需 编写 任何 代码 ， 提 
供 处 理 Hadoop 集 群 设置 、 运 行 和 性 能 优化 。 

多 服务 全 球 。Amazon EMR 服 务 使 用 的 EC2 基 础 设施 遍布 全 球 。 

@@ 与 其 他 AWS 服 务 集成 天 衣 无 颖 。Amazon EMR. 与 其 他 AWS 服 务 (例如 Amazon S3、 
DynamoDB 和 EC2 ) 的 集成 为 数据 处 理应 用 程序 提供 了 坚固 的 基础 设施 保障 。 该 服务 
在 Amazon EC2 中 运行 任务 流程 ， 在 Amazon S3 或 Amazon DynamoDB 中 存储 输入 和 输 
出 数据 。 

@@ 服务 可 靠 。Amazon EMR 是 基于 Amazon 高 度 可 靠 的 基础 设施 构建 而 成 的 ， 并 且 针 对 
Amazon 的 基础 设施 环境 优化 了 Hadoop 的 性 能 。 该 服务 能 监控 任务 流程 执行 、 重 试 失 
败 任 务 、 关 闭 出 现 问 题 的 实例 、 配 置 新 节点 替换 故障 节点 等 情况 ， 以 确保 任务 流程 流 
畅 地 执行 。 

2012 年 亚马逊 正式 推出 TDynamoDB®, 它 是 一 款 NoSQL 数 据 库 产品 。DynamoDB 为 互 

联网 的 大 数据 问题 提供 了 一 种 快速 、 可 靠 且 成 本 低 的 解决 方案 ， 扩 展 了 亚马逊 的 网 络 服务 
( Amazon Web Services ) 。 它 结合 了 NoSQL 与 云 服务 ， 延 续 了 亚马逊 上 一 代 NoSQL 数 据 库 
Dynamo 及 其 基础 原理 。 通 过 DynamoDB， 开 发 者 只 需 花费 较 低 的 成 本 租用 一 定量 的 空间 ， 
便 可 以 推广 应 用 ， 并 且 随 着 推广 的 深入 ， 还 可 以 根据 具体 规模 无 限量 地 扩展 容量 。Amazon 
DynamoDB 将 数据 保存 在 固态 硬盘 ( SSD ) 上 ， 并 且 进 行 跨 分 区 的 同步 复制 ， 以 保证 其 高 可 靠 
性 和 数据 持久 性 。 此 外 ，DynamoDB 会 在 后 台 将 特定 数据 表 的 数据 和 流量 分 布 到 各 个 服务 器 
上 ， 保 证 客户 端 平均 延迟 在 10 毫 秒 以 内 。 

DynamoDB 特 点 如 下 。 

@ 快速 。 首 先 ，DynamoDB 依 托 固态 硬盘 ( SSD ) ,使 得 数据 存 取 速度 得 以 提高 ; 
其 次 ， 为 降低 读 写 操作 的 延迟 ， DynamoDB 没 有 为 所 有 属性 建立 索引 ; 最 后 ， 
DynamoDB 的 延迟 是 由 数据 存储 的 分 布 式 特征 和 请 求 路 由 算法 决定 的 ， 所 以 可 以 预 
测 。 综 上 可 看 出 DynamoDB 具 有 低 延 迟 性 。 

@ 灵活 。 由 于 DynamoDB 的 数据 模型 不 是 特定 或 一 致 性 的 ， 因 此 客户 可 以 根据 情况 灵 
活 地 选择 访问 方式 。 此 外 用 户 还 可 以 利 用 DynamoDB 提 供 的 原子 的 递增 /递减 计数 
器 功能 。 


©® http:/tech.it168.com/a2012/0130/1304/000001304459.shtml 
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@ 便利 。DynamoDB 是 完全 托管 的 数据 库 ， 开 发 者 可 以 避免 软 硬 件 配置 的 束缚 ， 借 助 亚 
马 进 提 供 的 云 服务 解 决 数据 库 从 装配 到 扩展 所 遇 到 的 一 系列 问题 。 
@ 低 成 本 。 根 据 DynamoDB 的 官方 定价 ， 读 操作 为 每 50 个 单位 容量 $0.01/ 小 时 ， 写 请 
求 每 10 个 单位 容量 $0.01/ 小 时 ， 存 储 数 据 每 $1/ 月 。 用 户 还 可 以 从 免费 级 别 的 Amazon 
DynamoDB 开 始 使 用 ， 每 月 可 以 免费 提供 40000000 个 请 求 。 对 于 创业 者 来 说 ， 云 服务 
要 比 制备 一 套 软 硬件 系统 所 花费 的 成 本 低 很 多 
除 上 述 特点 之 外 ，DynamoDB 还 具有 性 能 高 、 持 久 性 、 可 用 性 以 及 可 预测 性 等 特点 。 亚 
马 逊 首席 技术 官 Werner Vogels 表 示 Amazon Dynamo 是 在 多 年 经 验 的 基础 上 创新 出 来 的 数据 库 服 
务 。 不 过 ， 他 也 提出 还 要 进一步 地 验证 DynamoDB 的 具体 功能 和 特性 

Amazon Redshift 是 一 种 PB 级 的 数据 仓库 服务 89， 具有 完全 托管 、 简 便 、 快 速 、 安 全 、 兼 
容 和 成 本 低 等 特点 。 为 了 提供 快速 的 查询 功能 ， 它 采用 列 存 储 技术 来 改善 1O 效 率 并 跨 过 多 个 
节点 平行 放置 查询 。 为 了 使 用 户 能 够 使 用 各 种 常见 的 SQL 客户 端 ， 它 采用 标准 的 PostgreSQL 
JDBC 和 0ODBC 驱 动 程序 。Redshift 的 数据 加 载 速度 和 集群 大 小 与 Amazon Elastic MapReduce、 
Amazon S3 、Amazon Kinesis 、Amazon DynamoDB 或 任何 SSH 启 用 主机 的 集成 呈 线 性 关系 
Redshift 还 能 使 预 配置 、 配 置 和 监控 等 与 数据 仓库 相关 的 大 多 数 常见 管理 任务 自动 化 ， 从 而 把 
数据 自动 、 连 续 、 递 增 地 备份 到 Amazon S3 上 


11.5 IBM 大 数据 解决 方 


2012 年 5 月 ，IBM 软 件 集团 提出 了 “3A5 步 ”方法 论 ， 如 图 11.6 所 示 。 即 掌控 信 
息 (Align ) 、 获 悉 洞察 ( Anticipate ) 、 采 取 行 动 ( Act ) 、 学 习 ( Learn ) 和 转型 
(Transform ) ， 强 调 把 数据 转换 为 价值 ， 并 推出 了 整体 的 大 数据 解决 方案 智慧 的 分 析 洞 


察 。 由 此 ，IBM 在 大 数据 市 场 的 精心 布局 可 见 一 斑 。 


Transform 转型 


图 11.6 IBM “3A5 步 ”模型 
图 11.7 中 ，IBM 的 大 数据 分 析 平 台 战 略 支 持 与 客户 现 有 的 系统 集成 ， 可 以 帮助 企业 解决 
大 数据 的 挑战 ， 具 体 包 括 信息 整合 、 数 据 治 理 、 元 数据 管理 、Hadoop 企 业 版 系统 ( InfoSphere 
Big Insights ) 、 流 计 算 ( InfoSphere Streams ) 、 数据 仓库 ( PureData System 、Infosphere 
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Warehouse ) 、 加 速 器 ( Accelerator ) 、 可 视 化 和 发 现 ( Infosphere Data Explorer ) 、 应 用 程序 
开发 和 系统 管理 等 功能 。 通 过 紧密 地 集成 Hadoop 与 IBM 信 息 管理 系统 ， 能 够 实时 对 流 数据 以 
及 非 结 构 化 数据 分 析 。 


信息 集成 和 治理 


图 11.7 IBM 的 大 数据 平台 


InfoSphere Big Insights 是 IBM 的 核心 ， 它 包括 IBM BigSheets 、Apache Hadoop 发 行 版 、 面 向 
MapReduce 编 程 的 Pig 编 程 语言 以 及 针对 IBM 的 DB2 数 据 库 连接 件 。 它 将 Apache Hadoop 与 [BM 
的 多 项 创新 相 结合 ， 提 供 包括 复杂 的 文本 分 析 、 用 于 数据 分 析 的 IBM BigSheets 以 及 一 些 安 
全 和 管理 功能 ， 最 终 得 到 一 款 可 用 于 复杂 大 数据 分 析 的 经 济 高 效 的 用 户 友好 型 解决 方案 。 
InfoSphere Streams 能 从 几 分 钟 到 几 小 时 的 窗口 中 的 移动 信息 ( 数据 流 ) 中 揭示 有 意义 的 模 
式 。 该 模式 能 合并 多 个 流 ， 从 多 个 流 中 获取 新 洞察 ， 还 能 获取 低 延 迟 洞察 ， 为 注重 时 效 的 应 
用 程序 获取 更 好 的 成 果 。InfoSphere Streams 是 IBM 针 对 流 计算 提供 的 产品 。 为 提高 企业 大 数据 
的 分 析 速 度 ，IBM 采 取 了 两 种 途径 来 解决 此 问题 ?8: 一 是 借助 于 BLU 技 术 将 大 数据 变 成 “中 数 
据 ” 甚 至 是 “小 数据 ”; 二 是 对 硬件 进行 优化 ， 推 出 了 面向 Hadoop 的 大 数据 机 。 因 此 ， 针 对 
第 一 种 途径 IBM 为 提高 大 数据 分 析 速 度 发 布 了 BLU Acceleration 分 析 加 速 技术 ， 用 户 查 询 时 ， 
BLU 快 速 缩小 数据 分 析 范 围 ， 清 洗 海量 数据 ， 使 得 只 有 小 部 分 有 效 数据 进入 分 析 流 程 。 在 提 
高 大 数据 分 析 速 度 的 第 二 种 路 径 一 一 硬件 优化 方面 ，IBM 发 布 了 IBM PureData box， 它 是 专 为 
Hadoop 大 数据 处 理 平台 设计 产生 的 。PureData Systems 大 数据 专家 集成 系统 被 [BM 定位 为 大 数 
据 时 代 的 分 析 处 理 引擎 ， 使 用 PureData 的 用 户 能 在 90 分 钟 内 完成 数据 加 载 。 

IBM 业 务 分 析 软 件 提供 了 一 套 完整 的 解决 方案 ， 主 要 是 为 了 帮助 企业 认识 业务 发 展 趋 
势 、 预 测 事件 和 提高 绩效 ， 使 企业 用 户 可 以 根据 不 同 的 分 析 结果 制定 决策 ， 降 低 风险 和 成 
本 ， 提 高 业绩 。 它 包括 五 个 子 产 品 线 ， 其 中 Cognos BI 平 台 是 一 个 多 层次 结构 ， 有 具体 包括 以 下 
几 个 方面 。 

@ 展现 层 。 包 括 Web、Windows 客 户 端 和 移动 客户 端 三 种 。 通 过 Web 方 式 ， 用 户 可 以 

访问 所 有 的 Cognos BI 功能 ,例如 专业 报表 、 记 分 卡 、 多 维 分 析 、 即 席 查询 和 仪表 盘 
等 ， 且 不 需要 安装 任何 插件 。 Cognos 支 持 与 MS Office 的 无 颖 融合 ， 支 持 在 移动 终端 
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上 运行 ， 支 持 iPhone、iPad、Windows Mobile、 Symbian 、 Blackberry 等 移动 平台 。 
@@ Web 层 。 主 要 用 于 部 署 Cognos 的 网 关 程 序 ， 该 网 关 程 序 可 以 部 署 在 Apache、IBM 
HTTP SERVER 、IIS 或 其 他 中 间 件 上 ， 用 户 通过 浏览 器 访问 时 ， 访 问 请 求 会 首先 发 送 
到 网 关 ， 网关 再 发 送 给 BI Server 进 行 处 理 。 
@ 应 用 层 。 报 表 统 计 、 即 席 查 询 、 多 维 分 析 、 内 容 管理 和 内 容 服 务 等 都 被 定义 为 服务 ， 
不 同 服务 间 通 过 Cognos BI Bus 即 不 同 Service 间 通信 的 公共 协议 进行 交互 。 
@ 数据 层 。 包 含 BI 平 台 支 持 的 各 种 数据 源 ， 例 如 关系 型 数据 库 、 多 维 数据 仓库 和 企业 级 
应 用 等 ， Cognos 在 统一 的 元 数据 基础 之 上 支持 多 数据 源 。 
Cognos BI 的 基础 是 Frameworks Manager， 负 责 对 来 自 数 据 集 市 ( 或 关系 型 数据 库 以 及 应 
用 系统 的 数据 源 ) 的 数据 结构 进行 建 模 ， 在 这 些 数据 模型 的 基础 上 进行 即席 查询 和 报表 统计 
的 开发 ， 也 可 以 基于 这 些 模型 进一步 进行 OLAP 多 维 分 析 建 模 ( 使 用 Transformer ) 并 最 终生 成 
PowerCubes 数 据 立 方 体 ， 基 于 PowerCubes 可 以 进行 各 种 应 用 程序 开发 ， 用 户 可 以 通过 Web 浏 览 
器 访问 最 终 的 应 用 程序 。 
近日 ，IBM 在 华发 布 了 最 新 的 Power 8 技术 ， 并 基于 Power 8 推出 了 一 系列 Power Systems 服 
务 器 。 全 新 一 代 的 Power 服 务 器 是 IBM 在 OpenPower 联 盟 之 后 推出 的 第 一 款 处 理 器 产品 ， 围 绕 
大 数据 分 析 负 载 进行 了 优化 。 与 自 营 模式 相 比 ，OpenPower 采 用 协作 和 开放 的 创新 模式 ， 将 
全 球 项 尖 的 Power 技 术 开放 给 业界 共享 ， 这 将 加 速 系 统 科技 的 创新 速度 ， 为 全 球 IT 产业 创造 新 
的 增长 机 会 ， 从 芯片 、UO 、 固 件 、 整 机 到 软件 的 产业 链条 的 各 个 厂商 都 可 以 利用 开放 的 领先 
技术 获得 巨大 的 商业 机 会 。IBM 将 通过 与 OpenPower 基 金 会 的 合作 ， 打 造 多 方 共 赢 的 合作 关系 
和 产业 环境 ， 更 好 地 满足 今天 迅速 增长 的 云 计算 、 大 数据 的 需求 。IBM 全 球 高 级 副 总 裁 Tom 
Rosamilia 表 示 “ 这 是 高 端 服 务 器 技术 数 十 年 来 第 一 次 真正 具有 变革 性 意义 的 进步 ， 在 突 飞 猛 
进 地 改变 系统 技术 、 面 向 新 兴 应 用 的 同时 全 面 支持 一 个 开放 的 生态 系统 ， 这 将 帮助 客户 平滑 
过 渡 ， 成 功 应 对 这 个 数据 量 和 复杂 性 激增 的 世界 。 如 今 ， 数 据 中 心 的 扩展 不 再 适合 采用 一 种 
放 之 四 海 而 皆 准 的 方法 。 通 过 我 们 与 OpenPower 基 金 会 的 合作 ，IBM 的 Power8 处 理 器 将 会 成 为 
大 数据 、 云 计算 、 移 动 和 社交 时 代 的 首选 计算 平台 。” 


和 11.6 ”甲骨 文大 数据 解决 方案 


甲骨 文 (Oracle ) 的 大 数据 平台 是 “大 数据 机 、Exadata 和 Exalytics” 三 驾 马 车 的 组 合 。 
甲骨 文 概 括 了 大 数据 平台 行为 的 三 个 方面 : 数据 获取 、 组 织 和 分 析 ， 如 图 11.8 所 示 。 甲 骨 文 
为 三 个 阶段 开发 了 不 同 的 产品 ， 并 且 这 些 产品 与 大 数据 机 相 融 合 。 大 数据 机 用 来 捕获 数据 ， 
再 利用 Exadata 进 行 分 析 ， 然 后 Exalytics 加 速 BI 分 析 并 决策 。 大 数据 机 是 一 个 软 、 硬 件 的 集成 
系统 ， 该 系统 使 用 的 操作 系统 是 Oracle Linux， 配 备 有 Oracle NoSQI 数 据 库 社区 版 本 和 Oracle 
HotSpot Java 虚 拟 机 。 它 融合 了 Cloudera 公 司 的 Distribution Including Apache Hadoop ( Apache 
Hadoop 发 行 版 ) 、Cloudera Manager ( 管理 器 管理 控制 台 ) 、 甲 骨 文 NoSQL 数 据 库 和 甲骨 文 一 
Sun 的 分 布 式 计算 平台 以 及 一 个 开源 的 R 语 言 。 甲 骨 文 的 解决 方案 还 包括 连接 件 ， 让 数据 在 传 
统 的 甲骨 文 数据 库 部 署 环境 或 甲骨 文 内 存 计算 平台 Exadata 和 大 数据 机 之 间 传 递 。 
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图 11.8 ”Oracle 的 大 数据 解决 方案 

Oracle 大 数据 机 具有 如 下 特点 : 提供 了 一 个 使 用 R 分 析 原 始 数据 源 ， 以 及 可 组 织 、 处 理 和 
分 析 Hadoop 中 的 大 数据 的 平台 ; 为 管理 海量 数据 提供 了 一 个 具有 高 可 用 性 的 可 扩展 的 系统 ; 完 
善 企业 数据 仓库 并 控制 开 成 本 ， 将 所 有 软 、 硬 件 组 件 预 集成 到 单一 的 大 数据 解决 方案 之 中 。 

甲骨 文公 司 数据 仓库 技术 副 总 裁 Cetin0zbutun 表 示 ，“Oracle 大 数据 机 同 Oracle Exadata 数 
据 库 云 服务 器 、Oracle Exalytics 商 务 智能 云 服 务 器 和 Oracle Exalogic 中 间 件 云 服 务 器 一 起 组 成 
了 Oracle 最 广泛 的 、 高 度 集成 化 系统 产品 组 合 ， 可 以 帮助 客户 获取 和 管理 各 种 类 型 的 数据 ， 
并 且 与 现 有 企业 数据 一 起 进行 分 析 ， 获 得 新 的 见解 ， 从 而 在 充分 获取 信息 的 情况 下 作出 最 恰 
当 的 决策 。” 当 Oracle 大 数据 机 、Oracle Exadata 数 据 库 云 服务 器 及 Oracle Exalytics 商 务 智能 云 
服务 器 结合 在 一 起 使 用 时 ，Oracle 提 供 了 业界 惟一 的 全 面 架构 ， 能 够 减少 数据 的 移动 ， 同 时 
能 够 存储 、 管 理 和 分 析 所 有 形式 的 结构 化 和 非 结构 化 数据 。 借 助 于 最 新 版 本 的 Oracle 大 数据 
机 以 及 最 新 升级 的 Oracle NoSQL 数 据 库 和 Oracle 大 数据 连接 器 ，Oracle 可 以 把 这 些 大 数据 技术 
和 数据 仓库 集成 在 一 起 ， 并 为 客户 提供 最 新 的 大 数据 升级 。 相 比 于 企业 自 建 Hadoop 集 群 ， 
Oracle 大 数据 机 可 为 客户 节省 高 达 39% 的 成 本 。 利 用 Oracle 大 数据 机 增强 的 软件 功能 和 增加 的 
存储 容量 ， 又 能 够 进一步 降低 客户 的 总 体 拥有 成 本 。 此 外 ，Oracle 作 为 Apache Sentry 项 目的 
共同 创立 者 之 一 ， 为 Apache Hadoop 存 储 数据 提供 了 细 粒 度 的 授权 ， 以 展示 对 企业 级 大 数据 
安全 性 的 承诺 。 通 过 Oracle 大 数据 机 ，Oracle 现 在 可 以 提供 全 面 的 包括 Apache Sentry 、 预 配置 
Kerberos 授 权 、LDAP 授 权 、 强 大 的 集中 化 审计 以 及 Oracle Audit Vault and Database Firewall 在 内 
的 Hadoop 安 全 解决 方案 。 甲 骨 文 公司 的 最 新 软件 产品 Oracle Big Data Connectors 能 使 客户 利用 
具有 表 空 间 加 密 功能 的 Oracle 数 据 库 11g， 轻 松 整合 存储 在 Hadoop 和 Oracle NoSQL 数 据 库 中 的 
数据 。 而 配备 有 Oracle Big Data Connectors 软 件 的 Oracle 大 数据 机 则 借助 于 Oracle Exalytics 商 务 
智能 云 服务 器 、Oracle Exalogic 中 间 件 云 服务 器 以 及 Oracle Exadata 数 据 库 云 服务 器 ,满足 客户 
从 企业 数据 中 心 获取 、 组 织 和 分 析 大 数据 的 所 有 需求 。 


111.7 EMC 大 数据 解决 方案 


创建 于 1979 年 的 EMC ( 易 安 信 ) 是 一 家 美国 信息 存储 资讯 科技 公司 ， 是 全 球 最 大 的 软件 
和 企业 存储 设备 提供 商 ， 主 要 业务 是 信息 存储 、 产 品 管理 与 服务 以 及 提供 解决 方案 。EMC 全 
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球 副 总 裁 兼 中 国 区 总 裁 蔡 汉 辉 指 出 ，“ 企 业 用 户 只 需要 三 步 ， 就 可 以 实现 EMC 大 数据 之 旅 。 
第 一 步 是 搭建 云 基 础 架构 ，EMC 给 企业 用 户 提 供 EMC Isilon 和 EMC Atmos; 第 二 步 是 进入 数据 
科学 协作 和 自助 服务 ， 催 生出 企业 中 “数据 科学 家 ”的 角色 ; 第 三 步 是 实时 决策 ， 支 持 大 数 
据 的 应 用 程序 ， 进 而 实现 数据 货币 化 。” 

EMC 对 Greenplum 的 收购 使 得 EMC Greenplum 大 数据 一 体 机 得 以 出 现 。 Greenplum 这 一 数 
据 库 产品 采用 Shared-nothing 的 大 规模 并 行 处 理 ( Massive Parallel Process，MPP ) 架构 ， 对 于 
大 数据 下 的 BI 等 大 数据 应 用 有 着 较 好 的 支持 ， 通 过 灵活 增加 节点 来 实现 横向 扩展 ， 以 便 控 
制 成 本 、 提 升 性 能 ， 其 大 数据 战略 如 图 11.9 所 示 。 利 用 大 量 的 并 行 处 理 来 查询 大 数据 集 ， 
Greenplum 数 据 库 可 以 在 普通 硬件 的 服务 器 上 运行 ， 对 于 虚拟 化 、 云 计算 以 及 大 数据 分 析 ， 
这 都 是 一 个 非常 重要 的 前 提 。 在 BIDW 和 全 球 数 据 处 理 领 域 ，Greenplum 提 供 的 数据 仓库 引擎 
产品 和 咨询 服务 是 速度 最 快 、 容 量 最 大 、 人 性 价 比 最 好 的 。 目 前 Greenplum HD Hadoop 发 行 版 和 
传统 的 Greenplum Database 构 成 了 Greenplum 的 数据 库 产品 ， 前 者 可 以 存储 和 分 析 导 入 Greenplum 
中 的 非 结构 化 数据 ， 后 者 可 以 用 来 应 对 企业 的 结构 化 数据 。EMC 大 数据 解决 方案 的 核心 是 由 
Greenplum HD Hadoop 发 行 版 、Greenplum Database 以 及 Greenplum Chorus 共 同 组 成 的 EMC 的 统一 大 
数据 分 析 平台 ( UAP ) 。 在 这 个 平台 上 ， 数 据 团队 可 以 无 颖 地 共享 信息 、 协 作 分 析 。 其 中 , 在 
行业 中 处 于 领先 地 位 的 Greenplum Chorus 是 全 世界 第 一 个 基于 协作 分 析 的 大 数据 平台 ， 是 一 个 社 
交 化 的 数据 处 理 平台 ,操作 使 用 习惯 与 Facebook 等 网 站 采用 的 社交 模式 很 像 ， 它 满足 了 蔚 汉 辉 
在 第 二 步 中 介绍 的 要 求 。 此 外 ，Greenplum Chorus 还 可 以 建立 把 一 定数 据 变 成 一 个 集合 的 数据 沙 
箱 ， 用 户 可 以 利用 工具 来 处 理 和 分 析 这 个 集合 ， 对 数据 的 分 析 结 果 进 行 共享 。 增 加 数据 分 析 和 
挖 所 的 趣味 性 ， 使 普通 用 户 也 可 以 做 到 ， 同 时 可 以 交互 各 种 角色 ， 形 成 一 个 数据 社交 轿 。 
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图 11.9 EMC Greenplum 的 大 数据 战略 


EMC Greenplum 统 一 分 析 平 台 还 包括 一 个 能 够 将 人 的 智慧 和 技术 产品 相 结 合 的 “数据 科 
学 家 计划 ”。 数 据 科学 家 能 够 灵活 地 利用 各 种 工具 去 抓 取 数 据 ， 形 成 数据 沙 箱 ， 快 速 地 进行 
实时 分 析 和 展现 ， 因 此 不 仅 需 要 具有 数据 方面 的 知识 背景 ， 还 要 求 具有 一 定 的 数学 建 模 能 
力 ， 同 时 还 要 懂得 企业 内 部 的 运转 流程 ， 从 而 帮助 企业 将 数据 变 成 具有 商业 价值 的 信息 。 
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在 硬件 方面 ， EMC 开 发 了 模块 化 的 ， 能 在 一 个 设备 里 运行 并 扩展 Greenplum HD 节点 和 
Creenplum 关 系数 据 库 的 EMC 数 据 计 算 设备 ( DCA ) 。 为 了 使 管理 员 可 以 方便 地 管理 、 监 控 和 
配置 Hadoop 容 量 、 系 统 性 能 以 及 Greenplum 数 据 库 ， 还 为 用 户 设 计 了 一 个 可 以 共享 的 指挥 中 心 

( Command Center ) 界面 。 另 外 ， 随 着 Hadoop 平 台 日 趋 成 熟 与 发 展 ， 其 对 分 析 功 能 的 要 求 也 
会 急剧 增加 。 

2014 年 7 月 9 日 EMC 公 司 宣布 了 新 一 代 的 Isilon 平 台 和 解决 方案 。 它 是 EMC IsilonOneFS 的 一 
项 重要 升级 ， 是 业界 首 个 横向 扩展 的 企业 级 数据 湖 ， 涵 盖 了 对 HDFS 的 不 间断 支持 。 通 过 利用 
针对 数据 湖 的 HDFS， 客 户 得 以 将 Hadoop 用 于 大 数据 ， 节 省 了 搬运 数据 的 时 间 和 成 本 ， 使 得 客 
户 显 著 提 升 了 提取 、 存 储 、 保 护 及 管理 大 量 非 结构 化 数据 的 能 力 。 同 一 天 ，EMC 与 Pivotal 联 
合 发 布 了 一 个 新 的 大 数据 分 析 解 决 方案 。 该 方案 以 数据 湖 Hadoop 包 的 形式 交付 ， 快 速 简便 ， 
拥有 强大 的 分 析 能 力 以 及 高 效 横向 扩展 平台 的 成 本 优势 ， 巩 固 了 EMC 在 Hadoop 存 储 基础 架构 
领域 的 领导 者 地 位 。 作 为 企业 级 HDFS 共 享 存储 市 场 排名 第 一 的 领导 者 ， 以 及 第 一 个 原生 集成 
大 数据 分 析 到 HDFS 的 横向 扩展 NAS 提 供 商 ，EMC Isilon 产 品 管理 及 产品 市 场 副 总 裁 Sam Grocott 
表示 ，“Isilon 横 向 扩展 数据 湖 是 EMC 解 决 全 球 最 大 存储 挑战 的 策略 ， 这 一 挑战 就 是 由 传统 的 
和 新 一 代 的 应 用 所 带 来 的 非 结构 化 数据 增长 。 新 推出 的 EMC Isilon 软 件 、 平 台 以 及 解决 方案 旨 
在 帮助 客户 应 对 上 述 挑 战 ， 同 时 驱动 更 快速 的 结果 产 出 并 节省 成 本 。” 


上 11.8 ”英特尔 大 数据 解决 方案 


英特尔 ( Intel ) 在 大 数据 时 代 主 要 是 面向 大 数据 应 用 ?， 在 为 存储 、 网 络 和 云 计算 提供 更 
高 效 、 更 快 的 架构 级 别 的 优化 方案 方面 不 断 发 展 ， 在 大 数据 应 用 开发 ， 促 进 软件 系统 和 服务 
的 不 断 优化 和 创新 方面 持续 投入 ; 在 终端 设备 和 传感器 的 智能 化 ， 构 建 互联 、 可 管理 的 和 安 
全 的 分 布 式 架构 方面 不 断 推进 。 

众所周知 ， 商 业 价值 最 突出 的 大 数据 处 理 平台 无 疑 是 Hadoop 了。 英特尔 结合 自己 的 硬件 
技术 和 成 熟 经验 ， 凭 借 在 云 计 算 、 数 据 中 心 领 域 积 累 的 大 量 实践 经 验 ， 以 及 在 开放 服务 器 领 
域 丰 富 的 解决 方案 ， 打 造 了 面向 大 数据 应 用 的 Hadoop 平 台 ， 与 其 他 Hadoop 平 台 相 比 ， 该 平台 
能 提供 可 靠 性 更 高 、 性 能 更 高 、 功 能 更 多 和 管理 更 容易 的 大 数据 解决 方案 2。 

@ 更 可 靠 。 全 面 测试 的 企业 级 发 行 版 ， 能 够 保证 长 期 运行 稳定 ， 用 户 及 时 修正 漏洞 ， 集 

成 最 新 开源 和 自行 开发 的 补丁 ,保证 各 个 部 件 之 间 的 一 致 性 ,使 应 用 能 顺 滑 运行 。 
@ 性 能 更 高 。 它 能 深度 结合 硬件 技术 ， 提 高 平台 性 能 ， 实 现 软 硬 一 体 的 高 效率 的 大 数据 
解决 方案 。 能 够 借助 Hadoop 底 层 的 大 量 优化 算法 ， 使 计算 存储 分 布 更 均衡 、 应 用 效率 
更 高 。 其 系统 安装 程序 计算 得 出 的 参数 配置 ， 适 合 目前 大 多 数 主 流 平 台 的 应 用 情况 。 
@ 功能 更 多 。 能 提供 HBase 数 据 库 复制 和 备份 功能 ， 提 供 跨 数 据 中心 的 HBase 数 据 库 虚 
拟 大 表 功 能 ， 此 外 还 有 其 他 针对 企业 用 户 的 增强 功能 。 

@@ 管理 更 容易 。 能 在 网 页 、 邮 件 等 发 生 系统 异常 时 报警 。 能 解决 开源 版 本 管理 困难 的 问 
©® http://mobile.51eto.com/news—392074.htm 
©@ http://server.zol.com.cn/356/3562592.html 


第 11 章 ”大 数据 应 用 的 主流 解决 方案 | 363 


题 ， 提 供 独 有 的 管理 界面 和 集群 安装 。 

Intel 的 Hadoop 企 业 级 发 行 版 构建 的 基础 是 开源 的 Apache 架 构 。 通 过 优化 其 基础 技术 层面 
来 提升 Intel 大 数据 平台 的 竞争 力 。 例 如 ， 为 加 速 大 数据 集 的 分 析 效 率 ， 改 进 吞 吐 率 和 速度 ， 
在 多 核 处 理 能 力 和 高 宽带 、 低 延迟 等 方面 进行 了 优化 ; 为 能 够 处 理 庞大 的 数据 集 ， 在 内 存 计 
算 、 数 据 压 缩 和 数据 保护 等 方面 进行 了 优化 ; 为 给 原始 数据 存储 提供 高 性 能 、 高 吞吐 率 的 支 
持 ， 对 SATA 接 口 的 固态 硬盘 ( SSD ) 进行 了 优化 ; 为 加 快 数据 的 加 密 速度 和 有 效 保护 分 布 式 
基础 设施 ， 增 强 了 内 置 于 硬件 的 安全 性 。 

另外 ,英特尔 还 推出 了 发 行 版 Hadoop 的 免费 版 。 与 发 行 版 相 比 ， 和 免费 版 除了 在 支持 的 存 
储 容量 和 节点 数量 上 不 同 外 ， 其 核心 代码 和 功能 都 相同 。 免 费 版 的 Hadoop 有 助 于 降低 大 数 
据 应 用 的 门槛 ， 将 大 数据 的 Hadoop 解 决 方案 惠及 更 多 用 户 ， 让 更 多 的 用 户 能 够 体验 Hadoop 
在 大 数据 处 理 上 的 优势 。 目 前 ， 英 特 尔 发 行 版 的 Hadoop 在 电信 、 生 产 制 造 、 视 频 监控 等 行业 
都 有 广泛 的 应 用 。Intel 为 提供 大 数据 应 用 的 指导 ， 帮 助 推 动 大 数据 的 应 用 ， 提 供 了 大 数据 应 
用 指南 和 工具 ， 并 提供 Intel 云 构建 计划 ( Cloud Builders ) 。“ 英 特 尔 预计 ， 到 2015 年 ， 将 有 
超过 10 亿 的 新 用 户 通 过 超过 150 亿 的 设备 接 入 到 互联 网 中 ， 这 一 远景 无 疑 将 会 为 技术 创新 带 
来 独特 的 机 遇 ， 这 些 机 遇 涵盖 从 数据 中 心 到 客户 终端 设备 的 完整 范围 。” 英 特 尔 数据 中 心事 
业 部 高 密度 计算 业务 总 经 理 Jason Waxman 谈 道 ，“ 与 行业 领袖 合作 ， 共 同 将 业经 验证 的 云 计 
算 解 决 方案 分 享 出 来 ， 用 于 满足 现今 IT 所 面临 的 基本 需求 一 这 是 我 们 参与 云 计算 的 重要 方 
式 。 截 至 目前 ， 我 们 可 以 看 到 超过 30 套 通过 英特尔 云 构建 计划 参考 架构 交付 的 业经 验证 的 解 
决 方案 。” 


和 11.9 ”SAP 大 数据 解决 方案 


SAP HANA 内 存 计 算是 SAP 的 大 数据 解决 方案 。 它 的 推出 改变 了 整个 市 场 ， 在 内 存 计算 
的 发 展 中 所 有 的 软件 厂商 都 在 积极 地 发 展 着 ， 而 SAP HANA 将 内 存 计算 技术 推 向 了 一 个 更 高 
的 位 置 ， 它 超越 了 过 去 的 内 存 计算 技术 ， 在 该 领域 成 为 最 先进 的 领导 者 。 它 从 一 开始 就 组 合 
并 应 用 了 多 种 技术 ， 在 创新 软件 架构 上 摆脱 了 过 去 的 模式 ， 形 成 多 种 架构 技术 的 技术 长 板 。 
SAP HANA 是 基于 开放 式 架 构 来 设计 的 ， 它 是 一 套 通过 优化 软件 和 整合 硬件 的 基于 内 存 计 算 
技术 的 应 用 ， 是 一 套 灵活 、 多 用 途 且 与 数据 源 无 关 的 基于 内 存 计 算 的 全 新 平台 。 承 载 SAP 
HANA 的 硬件 供应 商 可 以 由 企业 自由 选择 ， 用 户 可 以 把 它 理解 成 一 体 机 ， 如 图 11.10 所 示 。 
HANA 可 进行 实时 数据 复制 、 数 据 抽取 、 计 算 及 计划 引擎 、 行 / 列 存储 、 内 存 计算 引擎 以 及 数 
据 建 模 。 它 是 一 个 高 性 能 的 实时 数据 平台 ,该 平台 运行 在 认证 的 硬件 服务 器 上 ， 并 且 包 含 
了 内 存 计算 引擎 和 内 存 数 据 库 。SAP HANA 能 够 通过 实时 的 内 存 技术 来 帮助 企业 提高 运营 效 
率 @， 使 客户 能 够 实时 分 析 几 乎 任何 来 源 的 大 量 数据 。 通 过 对 现 有 企业 应 用 系统 的 计算 层 进 
行 简化 ， 使 企业 的 业务 应 用 可 以 直接 受益 于 由 此 带 来 的 硬件 性 能 的 提升 。 此 外 ，SAP HANA 


@®D http://techiifeng.com/internet/detail_2011_04/11/5660070_0.shtml 
©® http:/blog.csdn.net/qinghuawenkang/article/details/9036567 
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能 帮助 用 户 实时 浏览 和 分 析 任意 数据 源 的 业务 交易 数据 ， 能 使 企业 不 断 了 解 变化 的 大 量 信 
息 , 分 析 业 务 的 运营 情况 。 在 业务 发 生 时 ， 其 交易 数据 将 会 被 实时 同步 到 SAP HANA 的 内 存 
数据 库 中 ， 用 户 可 以 借助 视图 来 展现 分 析出 来 的 结果 。 它 还 能 完成 整个 企业 的 扩展 性 分 析 ， 
此 时 只 需要 在 分 析 模 型 中 添加 外 部 数据 即 可 。 


SAP HANA 
数据 建 模 


内 存 计算 引擎 


计算 及 计划 引擎 行 / 列 存储 


实时 数据 复制 数据 抽取 


图 11.10 SAP HANA 技 术 文档 


HANA 的 内 存 数据 库 ( SAP In-Memory Database，IMDB ) 是 其 重要 的 组 成 部 分 ， 用 来 充 
分 挖掘 和 使 用 现代 多 核 CPU 架构 设计 所 带 来 的 并 发 处 理 能 力 ， 是 包含 列 存储 、 行 存储 和 基 
于 对 象 的 数据 库 技 术 的 一 个 混合 式 的 内 存 数据 库 。HANA 的 核心 是 其 计算 引擎 ( Computing 
Engine ) ， 支 持 SQL 和 MDX 语 句 、SAP 和 non-SAP 数 据 ， 负 责 解析 并 处 理 对 大 量 数据 的 各 类 
CRUDQ 操 作 。 包 括 内 存 数据 库 服务 器 ( In-Memory Database Server ) 、 建 模 工 具 ( Studio ) 和 
客户 端 工具 ( ODBO、JDBC、0DBC 和 SQLDBC 等 ) 。 
HANA 的 存储 结构 分 为 内 存 、 磁 盘存 储 和 闪存 ( 持久 层 ) 。HANA 以 内 存 数据 库 为 基础 ， 
还 提供 了 一 个 2 ~ 4TB 的 闪存 来 保存 内 存 数 据 库 中 的 日 志 信息 ， 能 生成 保存 点 和 持久 层 。 这 是 
因为 磁盘 存储 的 读 写 速度 与 内 存 存 在 差异 ， 内 存 中 的 实时 数据 的 更 新 或 者 实时 数据 同步 的 操 
作 速 度 很 快 。 从 HANA 的 内 存 写 到 持久 层 的 过 程 连续 不 断 ， 中 间 有 一 定 的 时 间 间 隔 ， 甚 间 的 
数据 包含 两 个 部 分 : 数据 和 日 志 。 其 中 持久 层 是 HANA 内 存 数 据 库 某 个 时 点 的 一 个 完整 的 镜 
像 备 份 ， 以 及 备份 之 后 在 停电 前 成 功 执行 完毕 的 所 有 发 生 的 数据 库 更 新 日 志 信 息 。 因 为 持久 
层 的 容积 是 有 限 的 ， 要 保存 和 备份 HANA 的 数据 库 在 磁盘 上 ， 所 以 HANA 的 备份 都 保存 在 外 部 
的 物理 存储 上 ， 比 如 高 速率 的 硬盘 或 者 其 他 设备 。SAP HANA 在 内 存 中 进行 计算 ， 以 下 是 3 种 
把 数据 库 中 的 数据 复制 到 内 存 过 程 的 复制 技术 。 
@ 基于 触发 器 的 数据 同步 复制 技术 ( Trigger-Based Replication ) ,根据 实时 捕捉 的 SAP 
ERP 的 数据 库 系 统 的 修改 变化 ， 几 乎 实时 地 同步 到 HANA 中 。 
@ 基于 ETL 工 具 的 数据 复制 技术 ( ETL-Based Replication ) ， 通 过 ETL 技 术 把 数据 装载 
到 HANA 中 。 
@@ 基于 数据 库 底层 日 志 的 复制 技术 ( Log—Based Replication ) ， 根 据 日 志文 件 把 数据 库 
复制 到 HANA 中 。 
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和 11.10 Teradata 大 数据 解决 方案 


Teradata ( 天 容 ) 公司 擅长 传统 数据 仓库 创建 和 数据 控 气 分析 工作 ， 是 全 球 最 大 的 专注 于 
数据 仓库 、 大 数据 分 析 和 整合 营销 管理 解决 方案 的 供应 商 。 主 要 的 软 硬 件 产品 包括 : Teradata 
数据 库 软 件 、Teradata 逻 辑 数据 模型 、Teradata 专 用 平台 系列 和 Teradata 分 析 应 用 程序 和 服 
务 。 主 要 的 服务 包括 : Teradata 客 户 支持 服务 、 培 训 服 务 和 Teradata 专 业 顾问 服务 。 其 主要 产 
品 和 解决 方案 包括 : Teradata 数 据 仓 库 、Teradata Aster、Teradata 统 一 数据 架构 (UAD ) 以 及 
Teradata 应 用 解决 方案 AprimoteCircle。 

Teradata 公 司 推出 的 Teradata Aster 大 数据 探索 平台 ( Teradata Aster Discovery Platform ) 是 
业内 首 个 最 全 面 的 数据 探索 解决 方案 ， 如 图 11.11 所 示 。 借 助 于 预 建 的 分 析 功 能 包 ，Aster 大 数 
据 探索 平台 可 以 对 社交 网 络 、 网 络 点 击 、 客 户 流失 、 客 户 群 细 分 和 个 性 化 、 情 感 和 传感器 数 
据 等 进行 分 析 ， 快 速 地 洞察 数据 背后 的 信息 。 还 能 通过 将 MPP 数 据 仓 库 的 优势 与 MapReduce 
引擎 相 结合 ， 为 用 户 提供 交互 式 分 析 功 能 ， 快 速 挖 气 、 处 理 潜藏 在 数据 中 的 商业 价值 。Aster 
大 数据 探索 平台 能 够 做 到 : 快速 启用 即时 数据 探索 ; 迭代 式 开发 ， 完 美 支持 Teradata 统 一 数 
据 架 构 (UDA ) ; 业务 人 员 使 用 简单 方便 。 这 些 使 得 Aster 大 数据 探索 平台 与 传统 的 数据 探索 
方式 相 比 具 有 显著 的 优势 。Aster 大 数据 探索 平台 包括 Aster SQL-H 软 件 、Viewpoint Portlets 、 
Aster 管 理 控制 台 ( AMC ) 、Teradata Server Management 以 及 海量 并 行 处 理 5 大 主要 模块 ， 采用 
Hortonworks Hadoop 发 行 版 ， 提 供 了 基于 MapReduce 的 预 封 装 模 块 、 支 持 标准 的 SQL 以 及 数据 
系统 之 间 高 速 数据 传输 的 Teradata Aster Adaptor 连 接 器 ， 拥 有 20 多 项 全 新 的 大 数据 分 析 能 力 ， 
包括 可 定制 的 可 视 化 功能 等 。 
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图 11.11 Teradata Aster 平 台 
该 平台 在 技术 上 的 重要 革新 表现 在 下 述 几 个 方面 。 
@ 可 视 化 SQL-MapReduce 功 能 。 该 平台 能 够 运用 数据 库 中 其 他 的 Aster SQL- 
MapReduce 分 析 功 能 ， 以 便 为 客户 创建 定制 可 视 化 功能 。 
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@ 数据 库 内 集成 Attensity 功 能 。Teradata Aster 中 集成 了 Attensity 公 司 在 市 场 上 领先 的 文本 
和 情感 分 析 技 术 ， 使 得 文本 和 情感 分 析 成 为 大 数据 探索 过 程 的 重要 环节 ， 并 能 简便 地 
整合 到 其 他 分 析 技 术 中 。 

@ 借助 Zementis， 支 持 数 据 库 内 预测 模型 标记 语言 (PMML ) 。 该 平台 集成 了 Zementis 

和 Teradata Aster， 能 够 让 商业 分 析 师 通过 自选 工具 来 开发 统计 模型 。 

@@ 数据 库 内 集成 了 “R” 执 行 功 能 。Teradata Aster 数 据 库 内 高 度 集成 了 常用 的 开源 代码 

统计 语言 RR。 因 此 ,数据 科学 家 可 以 有 更 多 方式 来 执行 高 级 分 析 任 务 。 

@@ 制造 业 和 金融 服务 业 分 析 功 能 。 该 平台 整合 了 全 新 的 SQL-MapReduce 功 能 ， 以 便 更 

好 地 支持 制造 业 和 人 金融 服务 业 企业 。 其 中 ， 制 造 业 企业 通过 使 用 该 功能 可 以 完善 工作 
流程 ， 提 高 产量 并 减少 浪费 ， 而 金融 服务 业 企业 通过 使 用 该 功能 能 够 更 快捷 地 侦 测 到 
欺诈 行为 和 客户 流失 现象 。 

2014 年 5 月 22 日 Teradata 公 司 推出 了 业内 最 全 面 的 大 数据 解决 方案 Teradata 
QueryGrid， 这 也 是 目前 惟一 优化 企业 内 外 部 分 析 能 力 的 软件 。Teradata QueryGrid 采 用 文件 
系统 和 分 析 引 擎 ， 使 用 户 专注 于 数据 访问 和 分 析 ， 无 需 IT 人 员 或 专用 工具 介入 。 通 过 在 数据 
的 原 有 存储 位 置 进行 处 理 ， 最 大 限度 地 避免 了 数据 的 移动 和 复制 。Teradata QueryGrid 还 提供 
了 无 颖 的 自助 式 服务 ， 用 户 若 想 访问 和 分 析 某 个 系统 的 数据 ， 只 需 在 单一 Teradata Aster 数 据 
库 或 者 Teradata 数 据 库 (Teradata Database ) 查询 即 可 。“Teradata QueryGrid 是 最 灵活 的 解决 
方案 ， 配 备 实 现 所 有 功能 的 创新 型 软件 ， 得 以 轻松 完成 跨 数 据 库 分 析 处 理 ”，Teradata 天 容 
公司 实验 室 ( Teradata Labs ) 总 裁 Scott Gnau 表 示 ，“ 用 户 选择 相应 分 析 引 擎 和 文件 系统 后 ， 
Teradata 软 件 只 要 执行 一 条 SQL 查询 ， 就 能 无 颖 整合 不 同系 统 的 分 析 处 理 能 力 ， 无 需 移动 数 
据 。 此 外 ，Teradata 还 支持 在 单一 负载 中 使 用 多 个 文件 系统 和 分 析 引 擎 。” 


上 11.11 微软 大 数据 解决 方案 


在 大 数据 方面 微软 ( Microsoft ) 公司 已 经 做 了 很 久 的 研究 ， 并 提供 了 一 些 解决 方案 来 帮 
助 客户 解决 大 数据 带 来 的 挑战 。 要 想 挖掘 大 数据 中 的 价值 ?， 首 先 要 收集 、 存 储 数据 ， 使 数 
据 管 理 平台 可 以 无 缝 地 存储 和 处 理 实时 数据 及 结构 化 、 非 结构 化 等 所 有 类 型 的 数据 。 微 软 公 
司 推出 的 Hadoop 发 布 版 HDInsight 能 够 帮助 客户 通过 连接 世界 的 数据 和 服务 来 发 现 新 的 价值 ; 
能 够 通过 与 Active Directory 、System Center 集 成 ， 使 IT 人 员 可 以 使 用 基于 企业 的 安全 策略 来 保 
护 并 管理 他 们 的 Hadoop 集 群 ; 能 够 以 Hortonworks Data Platform ( HDP ) 为 基础 ， 结 合 Windows 
和 一 个 与 Apache Hadoop 完 全 兼容 的 发 行 版 本 ， 可 从 所 有 数据 中 揭示 隐藏 的 知识 ， 并 提升 企业 
的 洞察 力 。 

微软 大 数据 解决 方案 将 数据 和 模型 与 公开 的 数据 服务 相 结合 2， 使 用 Windows Azure 
Marketplace 中 的 应 用 程序 和 智能 挖掘 算法 ， 使 用 户 可 以 发 现 更 多 的 数据 模式 和 隐藏 的 信 
息 。 微 软 的 大 数据 解决 方案 还 能 使 用 企业 信息 化 管理 工具 ， 借 助 SQL Server 的 分 析 服 务 来 精 


© http://blog.csdn.net/niyi0318/article/details/8157357 
©® http://www.microsoft.com/china/sql/2012bicampaign/bigdata/ 
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炼 数据 。 

微软 的 大 数据 战略 包括 三 个 部 分 : 

@ 一 是 对 所 有 类 型 的 数据 进行 搜集 和 管理 的 数据 管理 层 。 

@ 二 是 能 丰富 数据 集 并 将 数据 变 成 信息 及 知识 的 扩展 层 。 

@ 三 是 能 实现 数据 以 及 信息 的 消费 化 ， 为 从 领导 层 到 每 个 员工 提供 直观 易 用 的 决策 支持 

的 洞察 力 层 。 

基于 SQL Server 的 微软 并 行 数据 仓库 一 体 机 使 用 了 Microsoft SQL Server 中 的 “大 规模 
并 行 处 理 ” ( MPP ) 体系 结构 及 “并 行 数据 仓库 ”， 来 提供 功能 最 全 面 的 数据 仓库 解决 方 
案 ， 是 高 度 可 扩展 、 针 对 企业 数据 仓库 的 设备 ， 是 微软 大 数据 战略 的 重要 基础 。 使 用 该 设 
备 的 企业 可 以 完成 更 复杂 的 分 析 、 运 行 更 多 的 报表 、 处 理 更 大 的 数据 集 以 及 分 析 更 详细 的 
数据 ， 且 在 运行 大 规模 的 查询 时 速度 非常 快 。 此 外 ， 它 还 具有 开 箱 即 用 的 特点 ， 服 务 器 的 
调整 和 优化 所 需 时 间 很 少 ， 安 装 和 加 载 数据 的 速度 也 很 快 ， 从 而 减少 了 工作 量 ， 缩 短 了 部 
署 时 间 ， 降 低 了 成 本 。 软 硬件 一 体 的 并 行 数据 仓库 一 体 机 只 需要 很 少 的 调整 和 优化 ， 可 有 
助 于 企业 降低 IT 成 本 。 

由 于 拥有 全 面 的 桌面 和 后 端 解决 方案 ,微软 的 大 数据 战略 也 被 认为 是 “ 端 到 端 ” 的 解决 
方案 。 微 软 大 数据 解决 方案 有 其 独特 的 优势 ， 表现 在 管理 、 丰 富 以 及 洞察 力 ， 如 图 11.12 所 
示 。 能 随时 互 连 全 球 的 数据 ， 发 现 隐藏 的 价值 ， 将 内 部 与 公用 的 数据 和 服务 相 结合 ; 前 端 使 
用 移动 终端 、 笔 记 本 等 多 种 设备 ， 以 及 微软 Office Excel、SharePoint、Power View 等 工具 ， 从 
而 在 数据 中 获取 所 需 信息 ， 提 供 决策 支持 ; 能 借助 于 支持 任何 数据 的 现代 数据 管理 平台 ， 
理 任意 种 类 和 大 小 的 数据 ， 具 有 Windows 的 易 用 性 、 云 的 弹性 和 可 扩展 性 。 


从 SGLserver 


咎 江 [server 优 WindowsAzure 


图 11.12 ”微软 大 数据 解决 方案 的 优势 
微软 全 球 高 级 副 总 裁 、 大 中 华 区 董事 长 兼 首席 执行 官 贺 乐 斌 表示 ，“ 微 软 通过 采用 先 
进 的 算法 来 帮助 用 户 更 高 效 地 挖掘 有 用 数据 ， 再 把 结果 以 用 户 最 直观 、 最 熟悉 的 形式 表现 出 
来 ， 从 而 帮助 用 户 决策 。” 目 前 ， 包 括 Gariner 在 内 的 全 球 分 析 师 机 构 ， 在 全 球 数 据 仓库 方面 
已 经 把 微软 列 为 主要 领导 者 之 一 。 微 软 并 行 数据 仓库 全 球 卓 越 中 心 总 监 Russ Cavan 表 示 了 ， 诸 


©® http://www.enet.com.cn/article/2012/1218/A20121218209817_2.shtml 
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如 Powerpivot、Excel、Reporting Services 、Analysis Services 以 及 SQL Server Integration Services 等 
表明 ， 微 软 实现 了 微软 并 行 数据 仓库 和 多 种 商业 智能 工具 的 紧密 集成 。 微 软 的 大 规模 数据 仓 
库 解决 方案 不 仅 能 在 客户 决策 时 提供 灵活 、 可 视 化 、 丰 富 而 且 易 用 的 前 端 展 现 ， 同 时 也 能 为 
客户 提供 后 台大 规模 数据 存储 、 管 理 与 处 理 ， 真 正 实 现 数据 以 及 信息 的 消费 化 。 


上 11.12 ”国泰 安 大 数据 解决 方案 


深圳 国泰 安 教育 技术 股份 有 限 公 司 是 一 家 为 金融 业 与 教育 业 提供 综合 解决 方案 的 国家 级 高 
新 技术 企业 。 自 2000 年 以 来 ， 国 泰安 一 直 致 力 于 为 国内 外 金融 业 和 教育 业 提供 集 “ 研 究 数据 、 
交易 系统 、 云 平台 建设 、 软 硬件 系统 和 增值 服务 ”为 一 体 的 综合 性 解决 方案 ， 现 已 发 展 成 为 中 
国教 育 与 金融 领域 内 最 专业 、 最 具 规 模 、 技 术 水 平 领先 的 综合 性 解决 方案 供应 商 与 服务 商 。 

国泰 安 大 数据 实验 室 解 决 方案 从 顶层 思路 的 大 数据 价值 链 
(如 图 11.13 所 示 ) 出 发 结合 市 场 常用 软件 以 及 国泰 安 自 有 的 软 
件 形成 了 国泰 安 大 数据 实验 室 解决 方案 。 

如 图 11.14 所 示 ， 国 泰安 大 数据 实验 室 解决 方案 为 大 数据 实验 
室 的 建设 提供 从 数据 源 、 大 数据 采集 与 ETL、 大 数据 存储 、 大 数据 
分 析 与 挖掘 、 大 数据 展示 与 可 视 化 五 大 模块 全 面 系 统 的 服务 。 首 
先 获取 数据 ， 进 行 大 数据 采集 清洗 ， 然 后 进行 存储 处 理 ， 分 析 与 
挖掘 ， 最 后 将 分 析 结 果 可 视 化 展示 出 来 给 决策 者 及 相关 人 员 。 每 图 11.13 大 数据 价值 链 
个 模块 下 分 别 配备 了 相应 的 软件 系统 ， 可 以 让 学 生 对 整个 大 数据 领域 的 知识 与 技能 进行 系统 
的 训练 和 学 习 ， 同 时 学 生还 可 依托 实验 室 软 硬件 条 件 进行 相关 的 研究 。 


网 页 ( 文 
本 、 多 媒 
体 数据 ) 


图 11.14 ”国泰 安 大 数据 实验 室 解 决 方案 
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其 中 ， 国 泰安 研发 或 代理 的 软件 用 黑色 标注 ， 其 他 公司 的 收费 的 软件 用 灰色 标注 ， 其 他 
颜色 表示 开源 或 免费 软件 。 
国泰 安 大 数 据 实验 室 解决 方案 ( 见 图 11.14 ) 中 国泰 安 研发 或 代理 的 产品 如 表 11.1 所 示 。 
表 11.1 ”国泰 安 大 数据 实验 室 解决 方案 部 分 软件 配置 列表 
软件 名 称 简介 


CSMAR 数 据 库 是 专门 针对 中 国 金融 、 经 济 领 域 的 研究 型 精准 数据 库 ， 包 括 股票 市 场 、 

CSMAR 数 据 库 ”| 公司 研究 、 基 金 市 场 、 债 券 市 场 、 衍 生 市 场 、 经 济 研究 、 行 业 研究 、 海 外 研究 和 专题 

研究 等 11 大 系列 ，75 个 数据 库 

量化 舆情 数据 库 “| 量化 与 情 数据 库 是 为 了 支持 新 闻 传 媒 、 品 牌 管理 和 量化 投资 等 研究 ， 通 过 接收 新 闻 站 
点 、 论 坛 、 博 客 和 微 博 等 海量 与 情 数据 而 建设 的 数据 存储 系统 

高 频数 据 库 是 包含 股票 、 基 金 、 债 券 、 权 证 、 股 指 期 货 、 商 品 期 货 ， 港 交 所 证 券 在 内 

高 频数 据 库 | 及 基于 高 频数 据 传输 、 更 新 、 应 用 软件 在 内 的 一 套 整 体 的 系统 解决 


国泰 安 大 数据 ”| 国泰 安 大 数 据 采集 平台 实现 对 各 类 不 同 的 数据 源 的 手工 、 半 手工 、 结 构 化 、 非 结构 化 
采集 平台 和 半 结 构 化 数据 进行 统一 采集 管理 
国泰 安 八 爪 鱼 。 | 国泰 安 八 爪 鱼 数据 采集 系统 以 完全 自主 研发 的 分 布 式 云 计算 平台 为 核心 ,可 以 在 很 短 
采集 器 的 时 间 内 ， 轻 松 从 各 种 不 同 的 网 站 或 者 网 页 获取 大 量 的 规范 化 数据 
Stata 统计 分 析 软 件 Stata 是 一 套 提供 其 使 用 者 数据 分 析 、 数 据 管理 以 及 绘制 专业 图 表 的 完 


及 整合 性 统计 软件 

sAS SAS 是 一 个 功能 强大 的 数据 库 整 合 平台 ,可 进行 数据 库 集成 、 序 列 查询 、 序 列 处 理 等 
工作 

pe SPSS 是 一 系列 用 于 统计 学 分 析 运 算 、 数 据 挖掘 、 预 测 分 析 和 决策 支持 任务 的 软件 产品 
及 相关 服务 的 总 称 


系统 提供 了 200 多 个 主流 经 济 金融 财会 的 模型 ， 并 采用 步骤 式 建 模 的 展示 方式 ， 将 复 
经 济 金融 模型 ”| 杂 模型 分 解 为 简单 易 懂 的 模型 。 基 于 Matlab 的 调用 强化 了 编程 体验 ， 开 源 式 的 模型 代 
实 训 平台 EFM ”| 码 设计 为 研究 者 在 模型 探索 中 提供 了 极 大 的 便利 。 另 外 ,平台 接口 与 CSMAR 数 据 库 高 
度 兼容 ， 研 究 者 能 够 方便 调 取 数据 进行 实战 分 析 

量化 投资 提供 从 数据 提取 及 处 理 、 策 略 构建 、 策 略 回 验 、 参 数 优化 到 绩效 分 析 整 个 研究 流程 
研究 平台 QIA le 研究 完成 后 的 策略 可 以 与 Quant 实 现 无 缝 对接， 进行 策略 模拟 交易 和 真实 


股指 期 货 该 系统 具有 期 现 套利 、 期 货 跨 期 套利 、 组 合 趋势 交易 、 贯 穿 整个 套利 过 程 的 风险 监控 

套利 系统 四 大 功能 

主要 应 用 于 投资 机 构 ， 使 用 算法 策略 进行 投资 交易 。 专 项 分 析 工 具 NT: 是 一 款 结合 

算法 交易 系统 ”| GTA 丰 富 的 数据 库 优势 以 及 Quick 公 司 先进 的 深度 分 析 功 能 模块 ， 为 用 户 提供 精准 、 及 

时 、 富 有 特色 的 金融 分 析 终端 

研究 分 析 平台 证 券 分 析 软 件 ， 包含 十 几 种 证 券 分 析 工 具 ， 可 进行 公司 分 析 、 行 业 分 析 、 固 定 收益 产 
Factset 品 分 析 ， 全 球 经 济 走势 预测 以 及 投资 组 合 管理 等 


ee 在 学 和 科技 应 用 软件 中 在 歼 值 计 和 方面 首 慑 一 损 、Wab 可 以 这 和 下 二 
函数 和 数据 、 实 现 算法 、 创 建 用 户 界面 、 连 接 其 他 编程 语言 的 程序 竺 


国泰 安 可 以 实现 与 多 种 数据 的 无 颖 对 接 、 实 时 数据 连接 读 取 、 模 型 建立 和 报告 生成 、 显 示 面 
Datawatch 板 的 建立 和 设置 等 


国泰 安 大 屏幕 ee 技术 图 表 、 各 类 图 文 、 视 频 影 音 等 多 种 展示 内 
管理 系统 ， 满 足 了 在 同一 块 大 屏 上 实现 区 域 划分 ， 自 由 划分 组 合 、 切 换 
此 外 ， 国 泰安 针对 不 同 专业 量 身 定做 了 专门 的 解决 方案 ， 如 针对 计算 机 /IT 专业 更 侧重 于 
技术 上 的 学 习 ， 可 以 学 习 一 些 分 析 挖 气 上 的 方法 和 工具 ; 针对 统计 /数学 专业 建议 更 侧重 于 拿 
到 行业 数据 ， 进 行 数据 分 析 ， 建 模 和 挖掘 及 行业 应 用 的 训练 ; 针对 金融 大 数据 实验 室 建议 的 
解决 方案 则 包括 了 国泰 安 金 融 行 业 数据 ， 以 及 金融 行业 相关 的 一 些 分 析 工 具 等 。 
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和 11.13 ”练习 


1. 简 述 目前 大 数据 解决 方案 的 主流 平台 及 其 发 展 要 求 。 

2. Cloudera 在 Hadoop 生 态 系统 中 的 地 位 。 

3. 基于 Apache Hadoop 数 据 分 析 系 统 的 Hortonworks 数 据 平台 ( HDP ) 的 主要 特点 。 

4. MapR 因 为 什么 提出 了 新 的 解决 方案 MapR lockless transaction? 查找 MapR lockless 
transaction 相 关 资 料 ， 看 其 是 否 解决 了 所 要 解决 的 问题 。 

5. 找 出 亚马逊 公司 的 一 系列 大 数据 产品 的 主要 特点 。 

6. 学 习 IBM 的 “3A5 步 ”方法 论 ， 尝 试 运用 并 解决 问题 。 

7. 甲骨 文 的 大 数据 解决 方案 包括 几 个 步骤， 三 驾 马车 在 甲骨 文 的 大 数据 平台 中 的 作用 。 

8.EMC 大 数据 解决 方案 的 核心 ， 了 解 EMC“ 数 据 科 学 家 计划 ”的 主要 内 容 。 

9. 英特尔 的 大 数据 解决 方案 与 其 他 厂家 相 比 优势 何在 。 

10. 了 解 SAP HANA 内 存 计算 在 SAP 的 大 数据 解决 方案 中 的 重要 位 置 。 

11. 查找 资料 ， 详 细 了 解 Teradata 公 司 在 传统 数据 仓库 和 数据 挖掘 分 析 上 的 工作 。 

12. 微软 的 大 数据 战略 被 认为 是 “ 端 到 端 ”的 解决 方案 ， 其 “ 端 到 端 ” 的 特点 是 如 何 体 
现 的 。 

13. 查找 其 他 国泰 安 公 司 在 大 数据 解决 方案 上 的 资料 ， 以 便 更 好 地 理解 GTA 大 数据 架 
构图 。 
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